nutch初体验

注意:用nutch还得添加一个环境变量指向java目录:NUTCH_JAVA_HOME=$JAVA_HOME否则报:JAVA_HOME is not set

 

1.nutch目录下新建url.txt写入网址如:http://www.163.com

 

2.nutch/conf下的crawl-urlfilter.txt

# accept hosts in MY.DOMAIN.NAME

+^http://([a-z0-9]*\.)*163.com/

 

3.conf下的nutch-site.xml

<configuration>

        <property>

                <name>http.agent.name</name>

                <value>my nutch agent</value>(自己命名)

        </property>

        <property>

                <name>searcher.dir</name>

<value>/root/nutch/crawl</value>(保存路中间不要用点如:crawl.demo,这样会致错)

</property>

</configuration>

 

4.抓取

bin/nutch crawl url.txt -dir /root/nutch/crawl -depth 2 -threads 4 -topN 50 >& crawl.log

其中crawl.log为抓取日志文件

 

5.将nutch-1.2.war放入tomcat的webapps下

修改项目WEB-INF/classes/nutch-site.xml文件中的目录为抓取内容存放的位置

<property>

        <name>searcher.dir</name>

<value>/root/nutch/crawl</value>

</property>

 

6.运行tomcat中的nutch项目,输入163可见搜索的结果

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值