Nutch爬虫安装向导与命令详解

最新推荐文章于 2024-05-06 10:43:14 发布

数据中国

最新推荐文章于 2024-05-06 10:43:14 发布

阅读量3.5k

点赞数

分类专栏：数据识别|数据清洗文章标签： nutch 爬虫 Shell

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chndata/article/details/45391877

版权

Nutch介绍

Nutch是一个开源的用java实现的一个搜素引擎，它包含两个部分的内容：爬虫和搜索。

我们这里主要介绍nutch的爬虫部分，爬虫系统是由nutch爬虫工具Cralwer实现的，生成数据文件主要包括三类，分别是webdatabase，一系列的segment加上index，三者的物理文件分别存储在爬行结果目录下的db目录下webdb子文件夹内，segments文件夹和index文件夹。

Nutch安装

步骤1：从下面的网站中下载nutch包

http://lucene.apache.org/nutch

步骤2：在linux系统中解压nutch包（目前我用的版本1.2，不是最新的版本）

执行命令：tar zxvfapache-nutch-1.2-src.tar.gz

步骤3：为了方便我们可以更改解压后的nutch文件夹命名

执行命令：mv apache-nutch-1.2-srcnutch

步骤4：使用ant工具来编译执行nutch项目，确保你的机器上安装了ant，我们可以看到nutch目录下有个build.xml文件。

执行命令：ant–buildfile build.xml

步骤5：测试nutch是否成功安装了，执行下面的命令

bin/nutch

Nutch配置

1. 配置URL过滤器：

Nutch爬虫工具Crawler使用了过滤器来决定从哪些url中抓取数据。我们可以通过配置指定的正则表达式来限制爬行匹配的url模式，在conf/crawl-urlfilter.txt文件中进行配置。

以 http://www.aibang.com/ 为例配置如下：

+^http://( [a-z0-9]*\.)*aibang.com/ ([a-z0-9]*\.)*

2. 代理配置

有时候抓不到数据ÿ

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Nutch爬虫安装向导与命令详解

Nutch介绍Nutch是一个开源的用java实现的一个搜素引擎，它包含两个部分的内容：爬虫和搜索。我们这里主要介绍nutch的爬虫部分，爬虫系统是由nutch爬虫工具Cralwer实现的，生成数据文件主要包括三类，分别是webdatabase，一系列的segment加上index，三者的物理文件分别存储在爬行结果目录下的db目录下webdb子文件夹内，segments文件夹和index文
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。