工作在windows下完成。java、tomcat和eclipse、Cygwin安装就不多说,其他软件的安装方法网上到处是google搜索一下。记录一下在配置过程中碰到的几个问题和几个比较容易忘记的步骤,日后需要时候也可以翻翻。
nutch分为爬虫和搜索器
1. 爬虫配置。
a) Nutch下载解压后(E:\java\CoreJava\IndexSearchAbout\nutch-1.0)
b) 创建crawled(存储爬取数据,包括索引)、urls/url.txt目录(里边的文本用来存储所需要爬取的网站url,每个url独立一行)
http://biaowen.iteye.com/
c) 修改配置文件conf/nutch-site.xml
<property>
<name>http.agent.name</name>
<value>b-crawler</value>
</property>
<property>
<name>http.agent.version</name>
<value>1.0</value>
</property>
d) Conf/crawl-urlfilter.txt里边些爬取规则,与urls/url.txt是对应的,比如url.txt里边有http://biaowen.iteye.com/,则crawl-urlfilter.txt需要添加相应规则
# accept hosts in MY.DOMAIN.NAME
+^http://biaowen.iteye.com/
e) 配置就完成了,如果没有意外应该可以正常爬取
1). 打开cygwin
2). cd /cygdrive/e/java/CoreJava/IndexSearchAbout/nutch-1.0
3). bin/nutch crawl urls/url.txt -dir crawled -depth 3 -threads 4
-dir(爬取数据存储目录) -depth(深度) - threads(线程,默认10) –topN(每个深度爬取前几个页面)
要特别需要注意一下,在爬取时候尽量保证进程里没有java.exe进程,要不你会产生很多莫名其妙的错误。因为有可能该java.exe正在操作nutch索引文件,当前爬取任务操作不了就会报错,当然了,如果你确定该java.exe进程不锁定索引文件,那就没有问题,自己体会吧。