Nutch数据集的目录具体内容

Nutch数据集的目录具体内容

165723_90PZ_870039.jpg

#导出crawldb

bin/nutch readdb data/crawldb/ -dump data/crawldb_dump

#查看crawldb

165758_mfp4_870039.jpg

Crawldb内容主要包括,抓取状态、抓取此网页的时间、对此网页的重要度评分等url地址的详细信息。

#查看linkdb

165826_lIFX_870039.jpg

#查看segments

一次爬行会产生很多个段(segment),段存储的是爬虫在一次抓取过程中抓到的网页以及这些网页的索引。爬虫爬行时会根据crawldb中的链接关系按照一定的爬行策略生成每次抓取循环所需的预取列表(fetch list),然后Fetcher类通过预取列表中的URL抓取这些网页并索引,然后将其存入段中。

#查看segments目录

165855_fh64_870039.jpg

Content:保存的是 fetcher 所抓取回来的源内容,html脚本

165933_4Z3c_870039.jpg

170003_6Cis_870039.jpg

Crawl_fetch:包含每个抓取页面的状态

170036_wpAk_870039.jpg

Crawl_generate:包含所抓取的网址列表

170105_8TvC_870039.jpg

Crawl_parse: 包含网址的外部链接地址,用于更新crawldb数据库

170153_OMXf_870039.jpg

Parse_data: 包含每个页面的外部链接和元数据

170250_0hNf_870039.jpg

Parse_text: 包含每个抓取页面的解析文本

170315_nTXM_870039.jpg

 

转载于:https://my.oschina.net/HIJAY/blog/223911

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值