Nutch爬虫安装向导与命令详解

Nutch介绍

Nutch是一个开源的用java实现的一个搜素引擎,它包含两个部分的内容:爬虫和搜索。

我们这里主要介绍nutch的爬虫部分,爬虫系统是由nutch爬虫工具Cralwer实现的,生成数据文件主要包括三类,分别是webdatabase,一系列的segment加上index,三者的物理文件分别存储在爬行结果目录下的db目录下webdb子文件夹内,segments文件夹和index文件夹。


Nutch安装

步骤1:从下面的网站中下载nutch包

http://lucene.apache.org/nutch

步骤2:在linux系统中解压nutch包(目前我用的版本1.2,不是最新的版本)

执行命令:tar zxvfapache-nutch-1.2-src.tar.gz

步骤3:为了方便我们可以更改解压后的nutch文件夹命名

执行命令:mv apache-nutch-1.2-srcnutch

步骤4:使用ant工具来编译执行nutch项目,确保你的机器上安装了ant,我们可以看到nutch目录下有个build.xml文件。

                执行命令:ant–buildfile build.xml

步骤5:测试nutch是否成功安装了,执行下面的命令

                bin/nutch


Nutch配置

1.       配置URL过滤器:

Nutch爬虫工具Crawler使用了过滤器来决定从哪些url中抓取数据。我们可以通过配置指定的正则表达式来限制爬行匹配的url模式,在conf/crawl-urlfilter.txt文件中进行配置。

http://www.aibang.com/ 为例配置如下:

+^http://( [a-z0-9]*\.)*aibang.com/ ([a-z0-9]*\.)*

2.      代理配置

有时候抓不到数据ÿ

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值