Nutch介绍
Nutch是一个开源的用java实现的一个搜素引擎,它包含两个部分的内容:爬虫和搜索。
我们这里主要介绍nutch的爬虫部分,爬虫系统是由nutch爬虫工具Cralwer实现的,生成数据文件主要包括三类,分别是webdatabase,一系列的segment加上index,三者的物理文件分别存储在爬行结果目录下的db目录下webdb子文件夹内,segments文件夹和index文件夹。
Nutch安装
步骤1:从下面的网站中下载nutch包
http://lucene.apache.org/nutch
步骤2:在linux系统中解压nutch包(目前我用的版本1.2,不是最新的版本)
执行命令:tar zxvfapache-nutch-1.2-src.tar.gz
步骤3:为了方便我们可以更改解压后的nutch文件夹命名
执行命令:mv apache-nutch-1.2-srcnutch
步骤4:使用ant工具来编译执行nutch项目,确保你的机器上安装了ant,我们可以看到nutch目录下有个build.xml文件。
执行命令:ant–buildfile build.xml
步骤5:测试nutch是否成功安装了,执行下面的命令
bin/nutch
Nutch配置
1. 配置URL过滤器:
Nutch爬虫工具Crawler使用了过滤器来决定从哪些url中抓取数据。我们可以通过配置指定的正则表达式来限制爬行匹配的url模式,在conf/crawl-urlfilter.txt文件中进行配置。
以 http://www.aibang.com/ 为例配置如下:
+^http://( [a-z0-9]*\.)*aibang.com/ ([a-z0-9]*\.)*
2. 代理配置
有时候抓不到数据ÿ