Nutch1.1的安装与运行

最新推荐文章于 2019-05-16 09:29:30 发布

uastation

最新推荐文章于 2019-05-16 09:29:30 发布

阅读量184

点赞数

分类专栏：搜索引擎文章标签： Tomcat lucene Apache Linux XML

搜索引擎专栏收录该内容

14 篇文章 0 订阅

订阅专栏

1 Nutch1.1安装与配置:

1.1 最新版Nutch1.1下载:
http://www.apache.org/dyn/closer.cgi/lucene/nutch/

1.2 最新片的Windows下模拟Linux环境工具Cygwin下载:
http://www.cygwin.com/

安装Cygwin工具,详见: http://hpjianhua.iteye.com/blog/870034

1.3 在1.1与1.2都完成的情况下,将1.1下载下来的Nutch1.1解压到D盘根目录,如:
D:\nutch-1.1

1.4 修改D:\nutch-1.1\conf目录下的crawl-urlfilter.txt文件:
修改如下:

将 
# accept hosts in MY.DOMAIN.NAME 
+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/ 
改为 
# accept hosts in MY.DOMAIN.NAME 
+^http://([a-z0-9]*\.)*163.com/

1.5 打开nutch/conf/nutch-site.xml文件，在<configuration>< /configuration>内插入以下内容：

<property> 
  <name>http.agent.name</name> 
  <value>nutch</value> 
  <description></description> 
</property> 

<property> 
  <name>http.agent.description</name> 
  <value>hpjianhua</value> 
<description></description> 
</property> 

<property> 
  <name>http.agent.url</name> 
  <value>http://www.163.com</value> 
  <description></description> 
</property> 

<property> 
  <name>http.agent.email</name> 
  <value>hpjianhua@163.com</value> 
  <description></description> 
</property>

1.6 打开D:\nutch-1.1\conf\nutch-default.xml文件,修改如下:

<property> 
  <name>http.agent.name</name> 
  <value>HD nutch agent</value> 
  <description>HTTP 'User-Agent' request header. MUST NOT be empty - 
  please set this to a single word uniquely related to your organization. 

  NOTE: You should also check other related properties: 

http.robots.agents 
http.agent.description 
http.agent.url 
http.agent.email 
http.agent.version 

  and set their values appropriately. 

  </description> 
</property>

至此Nutch1.1的安装已经完成!

2 Nutch1.1 运行与测试

2.1 补充: 配置Nutch1.1爬行所有网站:

修改nutch\conf\crawl-urlfilter.txt文件
只保存+^http://([a-z0-9]*\.)*这几个字就可以了，表示所有http的网站都同意爬行.

2.2 复制D:\nutch-1.1 目录下的nutch-1.1.war到D:\Program Files\apache-tomcat-6.0.29\webapps目录下.

2.3 修改D:\Program Files\apache-tomcat-6.0.29\webapps\nutch-1.1\WEB-INF\classes 目录下的nutch-site.xml的文件.
修改如下:

<configuration> 
<property> 
<name>searcher.dir</name> 
<value>D:\nutch-1.1\crawdata</value> 
</property> 
</configuration>

注意:D:\nutch-1.1\crawdata为爬行数据的存放目录.

2.4 在D:\nutch-1.1目录下新建一个文件夹urls,并在urls文件夹下新建url.txt文件,在文件中输入:
http://www.163.com/ ‘注意要有”/”.

2.5 双击桌面已经安装好的Cygwin图标:

在输入窗口中输入: cd /cygdrive/d/nutch-1.1

然后再输入: bin/nutch crawl urls -dir crawdata -depth 3 -threads 4 >& crawl.log

详解:
crawl：通知nutch.jar，执行crawl的main方法。
urls：存放需要爬行的url.txt文件的目录
-dir crawldata 爬行后文件保存的位置
-depth 1：爬行次数，或者成为深度，不过还是觉得次数更贴切，建议测试时改为1。
-threads 指定并发的进程这是设定为 5
-topN 50：一个网站保存的最大页面数。
>& crawl.log 输出日志，参考用
耐心等待爬行完毕即可完成.

2.6 修改查询乱码问题:
在Tomcat\conf \server.xml 找到以下段，并修改

<Connector port="8080" maxThreads="150" minSpareThreads="25" maxSpareThreads="75" enableLookups="false" redirectPort="8443" acceptCount="100" debug="0" connectionTimeout="20000" disableUploadTimeout="true" URIEncoding="UTF-8" useBodyEncodingForURI="true" />