Nutch数据集的目录具体内容

最新推荐文章于 2024-08-27 15:47:59 发布

weixin_34037173

最新推荐文章于 2024-08-27 15:47:59 发布

阅读量79

点赞数

文章标签：爬虫数据库

原文链接：https://my.oschina.net/HIJAY/blog/223911

版权

为什么80%的码农都做不了架构师？>>>

Nutch数据集的目录具体内容

#导出crawldb

bin/nutch readdb data/crawldb/ -dump data/crawldb_dump

#查看crawldb

Crawldb内容主要包括，抓取状态、抓取此网页的时间、对此网页的重要度评分等url地址的详细信息。

#查看linkdb

#查看segments

一次爬行会产生很多个段(segment)，段存储的是爬虫在一次抓取过程中抓到的网页以及这些网页的索引。爬虫爬行时会根据crawldb中的链接关系按照一定的爬行策略生成每次抓取循环所需的预取列表(fetch list)，然后Fetcher类通过预取列表中的URL抓取这些网页并索引，然后将其存入段中。

#查看segments目录

Content：保存的是 fetcher 所抓取回来的源内容，html脚本

Crawl_fetch：包含每个抓取页面的状态

Crawl_generate:包含所抓取的网址列表

Crawl_parse: 包含网址的外部链接地址，用于更新crawldb数据库

Parse_data: 包含每个页面的外部链接和元数据

Parse_text: 包含每个抓取页面的解析文本

转载于:https://my.oschina.net/HIJAY/blog/223911

weixin_34037173

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Nutch数据集的目录具体内容

为什么80%的码农都做不了架构师？>>> ...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。