nutch segment目录结构说明

content

    包含下载页面的原始数,存储为map文件,格式是<url,Content>。为了展示缓存也页的视图,这里使用文件存储数据,因为Nutch需要对文件做快速随机的访问。

crawl_generate

    它包含将要爬取的URL列表以及从CrawlDb取到的与这些URL页相关的当前状态信息,对应的顺序文件的格式<url,CrawlDatum>。这个数据采用顺序文件存储原因有二:第一,这些数据是按顺序逐个处理的;第二,map文件排序值的不变性不能满足我们的要求。我们需要尽量分散属于同一台主机的URL,以此减少每个目标主机的负载,这就意味着激烈信息基本上是随机排列的。

crawl_fetch

    它包含数据爬取的状态信息,即爬取是否成功相应码是什么,等等。这个数据存储在map文件里,格式是<url,CrawlDatum>。

crawl_parse

     每个成功爬取并解析的页面的出链接列表都保存在这里,因此Nutch通过学习新的URL可以扩展它的爬取前端页。

parse_date

    解析过程中收集的元数据,其中还有页面的出链接(frontier)列表。这些信息对于建立反向图(入链接-ink)是相当关键的。

parse_text

    页面的纯文本内容适合用Lucene进行索引。这些纯文本存储成map文件,格式是<url,ParseText>,因此要展示搜索结果列表的概要信息(摘要)的时候,Nutch可以快速地访问这些文件。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值