nutch segment目录结构说明

最新推荐文章于 2024-11-11 22:26:09 发布

obite

最新推荐文章于 2024-11-11 22:26:09 发布

阅读量119

点赞数

文章标签：前端 ViewUI

content

包含下载页面的原始数，存储为map文件，格式是<url,Content>。为了展示缓存也页的视图，这里使用文件存储数据，因为Nutch需要对文件做快速随机的访问。

crawl_generate

它包含将要爬取的URL列表以及从CrawlDb取到的与这些URL页相关的当前状态信息，对应的顺序文件的格式<url,CrawlDatum>。这个数据采用顺序文件存储原因有二：第一，这些数据是按顺序逐个处理的；第二，map文件排序值的不变性不能满足我们的要求。我们需要尽量分散属于同一台主机的URL，以此减少每个目标主机的负载，这就意味着激烈信息基本上是随机排列的。

crawl_fetch

它包含数据爬取的状态信息，即爬取是否成功相应码是什么，等等。这个数据存储在map文件里，格式是<url,CrawlDatum>。

crawl_parse

每个成功爬取并解析的页面的出链接列表都保存在这里，因此Nutch通过学习新的URL可以扩展它的爬取前端页。

parse_date

解析过程中收集的元数据，其中还有页面的出链接(frontier)列表。这些信息对于建立反向图(入链接-ink)是相当关键的。

parse_text

页面的纯文本内容适合用Lucene进行索引。这些纯文本存储成map文件，格式是<url,ParseText>，因此要展示搜索结果列表的概要信息(摘要)的时候，Nutch可以快速地访问这些文件。