Nutch抓取数据内容的详解

最新推荐文章于 2016-05-02 13:58:47 发布

yhcelebrite

最新推荐文章于 2016-05-02 13:58:47 发布

阅读量3k

点赞数

分类专栏： nutch 文章标签：数据解析parse nutch 网络爬虫搜索引擎 crawl

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yhcelebrite/article/details/8870468

版权

本文详细介绍了使用Nutch进行数据抓取的过程，包括以天涯论坛为例的抓取命令，抓取过程涉及Injector、Generator、Fetcher、ParseSegment和CrawlDb更新等步骤。抓取完成后，生成Crawldb、Linkdb和Segments三个目录，其中Crawldb用于存储url地址，并可通过特定命令查看统计信息。此外，文章还解释了Linkdb和Segments目录的内容以及如何通过readseg命令获取各阶段的数据。

摘要由CSDN通过智能技术生成

之前以sina和csdn的blog为seed进行抓取，都出现Stopping at depth=1 - no more URLs to fetch.

所以最终以http://www.tianya.cn/blog/为例进行数据抓取，然后对抓取的数据内容进行解析：

命令：$ bin/nutch crawl tianya -dir crawl_tianya -depth 3 -topN 10（存放seed路径在tianya目录下）

抓取过程为：

Injector-》

Generator-》Fetcher-》ParseSegment-》CrawlDb update depth=1

Generator-》Fetcher-》ParseSegment-》CrawlDb update depth=2

Generator-》Fetcher-》ParseSegment-》CrawlDb update-》LinkDb depth=3

也就是说往复循环Generator-》Fetcher-》ParseSegment-》CrawlDb update 这个过程；

第一次注入url初值，Generator urls，Fetcher网页，ParseSegment解析数据，update CrawlDb ；

之后每次更新crawldb，即url库。

抓去完成之后生成3个目录：

Crawldb

Linkdb

Segments

Crawldb中存放的是url地址，第一次根据所给url http://www.tianya.cn/blog/进行注入；第一次结束时update crawldb 保存第一次抓取的url地址，下一次即depth=2的时候就会从crawldb中获取新的url地址集，进行新一轮的抓取。

Crawldb中有两个文件夹：current 和old current就是当前url地址集，old是上一次的一个备份。

Current和old结构相同里面都有part-00000这样的一个文件夹在part-00000里面分别有data和index两个文件。一个存放数据，一个存放索引。

对crawldb文件夹内容的查看命令：

$ bin/nutch readdb

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。