在Windows环境下安装和配置Nutch 0.9

一、运行环境:

1.       操作系统:Windows XP

2.       Java 1.6 ,设置JAVA_HOME 等环境变量

鼠标右键单击我的电脑→属性→高级→环境变量,如下图示:

1)       单击系统变量列表框下面的新建按钮,新建java_home 环境变量。

2)       单击系统变量列表框下面的新建按钮,新建classpath 环境变量。

3)       在系统变量中找到path 变量,并在原有path 值的基础上添加环境变量。

例如:

1)       java_home=E:\Java\Jdk

2)       classpath=.\;E:\Java\JDK\lib\dt.jar;E:\Java\JDK\lib\tools.jar;E:\Java\JDK\jre\lib (注意:“.\; ”不能少)

3)       path= ……;E:\Java\Jdk\bin (注意:是添加,不是更改)

3.       Cygwin ,由于Nutch 提供的脚本只能在Linux 环境下使用,所以使用Cygwin 来虚拟Linux 命令。 下载地址:http://www.cygwin.cn/

4.       Nutch 0.9

5.       Tomcat 6.0

 

 

二、Nutch 的安装和配置:

1.       安装Cygwin (我这里装到E:\Cygwin )。

2.       将Nutch 解压缩后放置到Cygwin 的根目录(或者:\home\ 用户名\ )的目录下。

解压的方法是:

1)       为了便于操作,建议将Nutch 0.9 的安装包拷贝到Cygwin\home\ 用户名\ 目录下,这是由于使用Cygwin 进入操作界面是的默认目录是:\home\ 用户名。我们可以使用pwd 命令来查看当前的目录。当然也可以拷贝到Cygwin 的根目录下,这样就需要我们使用cd 命令来退到Cygwin 的根目录。启动Cygwin ,我们就可以看到以下界面,具体操作如下:

2)       使用dir 命令可以查看当前目录下含有的文件,我们就可以看到Nutch 0.9 的安装包,这时我们就可以将Nutch 0.9 解压出来。 输入命令: tar xvf nutch-0.9.tar.gz

3)       在Cygwin 环境下进入Nutch-0.9 目录下,使用cd 命令可以跳转到指定的目录。

为方便目录管理,我采用的目录结构为:E:\Cygwin\Nutch\nutch-0.9

使用命令bin/Nutch 进行测试,正常的情况下出现的结果是:

3.       进行抓取网站的测试,以抓取http://www.163.com 为例

1)       新建一个文件夹myUrl ,在文件夹中新建一个文本文件,在该文本文件中输入http://www.163.com 保存。另外再建立一个文件夹myLog ,该文件夹是用来存放使用Nutch 抓取的网页信息。这个两个文件夹都可以放在任何地方。我的目录结构如下图示:

2)       下面还需要修改几个文件,建议使用文本编辑器,例如我用的就是UltrEdit 。打开nutch-0.9\conf\nutch-site.xml 文件。

在<configuration></configuration> 中间插入以下内容:

 

 

<property>

<name>http.agent.name</name>

<value>Jennifer</value>

<description>HTTP 'User-Agent' request header. MUST NOT be empty -

please set this to a single word uniquely related to your organization.

 

NOTE: You should also check other related properties:

 

     http.robots.agents

     http.agent.description

     http.agent.url

     http.agent.email

     http.agent.version

 

and set their values appropriately.

 

</description>

</property>

 

<property>

<name>http.agent.description</name>

<value>Jennifer</value>

<description>Further description of our bot- this text is used in

the User-Agent header. It appears in parenthesis after the agent name.

</description>

</property>

 

<property>

<name>http.agent.url</name>

<value>Jennifer</value>

<description>A URL to advertise in the User-Agent header. This will

   appear in parenthesis after the agent name. Custom dictates that this

   should be a URL of a page explaining the purpose and behavior of this

   crawler.

</description>

</property>

 

<property>

<name>http.agent.email</name>

<value>Jennifer</value>

<description>An email address to advertise in the HTTP 'From' request

   header and User-Agent header. A good practice is to mangle this

   address (e.g. 'info at example dot com') to avoid spamming.

</description>

</property>

 

 

 

 

 

并修改<value></value> 中间的值,这里的设置是因为Nutch 遵守了robots 协议,在获取response 时,把自己的相关信息提交给被爬行的网站,以供识别。所以设置成任何你喜欢的值都可以的。

 

3)       打开Nutch-0.9\conf\crawl-urlfilter.txt 文件

找到"+^http://([a-z0-9]*\.)* MY.DOMAIN.NAME/” ,将其中的' MY.DOMAIN.NAME/' 直接删除。

4)       运行爬虫,在Cygwin 输入以下命令,如下图示:

其中:crawl 后面跟的是用于存储你想要爬行的网站的网址的目录和文件。-dir 后面跟的是用于存储nutch 抓取的网站的内容的目录。注意:该目录当前必须不存在,它用于指出存放爬行后结果的目录。-depth 表示爬行的深度。最后一个参数是指明日志文件存放的目录和文件。

运行结束后,你可以打开日志文件查看爬虫运行的详细过程。

4.       在tomcat 上运行Nutch

1)       把nutch-0.9.war 拷贝到Tomcat\webapps\ 下面

2)       在浏览器中输入http://localhost:8080/nutch-0.9/

3)       修改Tomcat\webapps\nutch-0.9\WEB-INF\classes\nutch-site.xml 文件,并 在<configuration></configuration> 中添加以下内容:

 

<property>

<name>searcher.dir</name>

<value>E:\Cygwin\nutch\mydir</value>

</property>

 

 

 

 

 

其中<value></value> 中间的值一定是前面爬行网站是用于存放结果的目录。

4)       为了支持中文的搜索,修改Tomcat\conf\server.xml。 找到对应的地方修改成以下内容:

 

<Connector port="8080" protocol="HTTP/1.1"

               connectionTimeout="20000"

               redirectPort="8443" URIEncoding="UTF-8" useBodyEncodingForURI="true"/>

 

 

 

 

 

 

5.       在浏览器中输入http://localhost:8080/nutch-0.9

 

 

 

文章链接转自:http://apps.hi.baidu.com/share/mine

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值