Heritrix 和 Nutch的区别

最新推荐文章于 2021-02-21 12:17:27 发布

绝地反击T

最新推荐文章于 2021-02-21 12:17:27 发布

阅读量1.2k

点赞数

分类专栏：网络爬虫

网络爬虫专栏收录该内容

21 篇文章 0 订阅

订阅专栏

总体来说Heritrix网络蜘蛛的功能更为强大，Nutch更好地支持搜索引擎（与Lucene紧密结合）。两者特点对比如下：

Nutch是一个搜索引擎框架，而Heritrix专注于网络信息的下载。
Nutch只获取并保存可索引的内容，并可对下载后有内容过滤修改，而Heritrix则可以适用各种类型信息，严格保持网页原貌。
Nutch的更新策略是直接替换原来的旧网页，为索引作好准备；而Heritrix则保留历史内容，下载新内容。
都以任务形式管理，Nutch只支持命令行，Heritrix还支持Web控制界面。
Nutch下载控制参数少，Heritrix更加灵活。

Heritrix 是个 "archival crawler" -- 用来获取完整的、精确的、站点内容的深度复制。包括获取图像以及其他非文本内容。抓取并存储相关的内容。对内容来者不拒，不对页面进行内容上的修改。重新爬行对相同的URL不针对先前的进行替换。爬虫通过Web用户界面启动、监控、调整，允许弹性的定义要获取的URL。

Heritrix中有几个关键模块这里介绍一下：

下载控制器CrawlController。总控部分，以主线程形式运行。通过调试，最终把下载地址管理器Frontier中地址列表传递给线程池中的ToeThreads，完成下载任务。
边界控制器Frontier。用来确定下一个将抓取的网页。实现对网站访问的均衡处理，避免多线程同时访问同一个网站造成网站压力。Frontier内至少包含最新发现的URL、正在处理的URL、已经下载的URL。
服务器缓存Servercache。实现搜索引擎中的DNS缓存。Servercache中存放服务器的持久信息，包括IP地址、历史下载记录、机器人策略等。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。