Nutch学习一:环境搭建

参考附件Nutch入门教程及http://read.newbooks.com.cn/info/196850.html,随笔记录。

(一)环境搭建:
1.安装Cygwin
2.下载的Nutch1.0解压
3.设置环境变量NUTCH_JAVA_HOME为JDK安装目录

(二)执行爬虫:
1. 在Nutch目录下创建一个文件用来存放要抓取的网址,这里我们创建了一个名为url.txt的文本文件,文件内容如下:http://www.163.com/
2.打开Nutch目录下的conf/crawl-urlfilter.txt文件,设置爬虫搜索的范围,内容如下:
# accept hosts in MY.DOMAIN.NAME
+^http://([a-z0-9]*\.)*163.com/
3.打开Nutch目录下的conf/nutch-site.xml文件,在<configuration>和</configuration>之间添加如下内容:
<property>
<name>http.agent.name</name>
<value>xxx</value>
<description></description>
</property>

<property>
<name>http.agent.description</name>
<value>xxx</value>
<description></description>
</property>

<property>
<name>http.agent.url</name>
<value>http://www.163.com/</value>
<description></description>
</property>

<property>
<name>http.agent.email</name>
<value>test@email.com.net.org</value>
<description></description>
</property>
在上面的property的value中设置你爬虫的信息,这些信息将会附加在你发送给服务器的HTTP请求中。

4.在Cygwin中执行如下命令:
进入nutch的目录
$ bin/nutch crawl url.txt -dir demo -depth 5 -threads 10 >& crawl.log

上面的url.txt指定了我们创建的存有网址的文本文件,demo 是用于保存Nutch创建的索引文件的文件夹,后面配置Tomcat时要用到。参数depth指定了爬虫爬行的深度,参数threads指定了用于爬行的并发线程数。


(三)执行搜索:
1. 到Tomcat的webapps目录下,将Nutch目录中的nutch- 1.0.war重命名为nutch.war,然后将nutch.war拷贝到Tomcat\webapps目录下,启动Tomcat会自动为你创建一个名为 nutch的文件。

2. 在webapps\root\web-inf\classes\nutch-site.xml的文件中添加如下内容:
<property>
   <name>searcher.dir</name>
   <value>D:\cygwin\usr\local\nutch\demo</value>
</property>

修改value为你爬行的程序存放索引的目录,在这里我们的目录是D:\cygwin\usr\local\nutch\demo。

3. 在Web浏览器中访问http://localhost:8080/nutch,即可使用Nutch搜索刚才爬行过的网页中的内容了。

注意:如果搜索出现乱码,请修改Tomcat的conf\server.xml指定编码
<Connector
port="8080"
protocol="HTTP/1.1"
connectionTimeout="20000"
redirectPort="8443"
URIEncoding="UTF-8"
useBodyEncodingForURI="true" />

其中URIEncoding="UTF-8"和useBodyEncodingForURI="true"是要添加的内容。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值