content
包含下载页面的原始数,存储为map文件,格式是<url,Content>。为了展示缓存也页的视图,这里使用文件存储数据,因为Nutch需要对文件做快速随机的访问。
crawl_generate
它包含将要爬取的URL列表以及从CrawlDb取到的与这些URL页相关的当前状态信息,对应的顺序文件的格式<url,CrawlDatum>。这个数据采用顺序文件存储原因有二:第一,这些数据是按顺序逐个处理的;第二,map文件排序值的不变性不能满足我们的要求。我们需要尽量分散属于同一台主机的URL,以此减少每个目标主机的负载,这就意味着激烈信息基本上是随机排列的。
crawl_fetch
它包含数据爬取的状态信息,即爬取是否成功相应码是什么,等等。这个数据存储在map文件里,格式是<url,CrawlDatum>。
crawl_parse
每个成功爬取并解析的页面的出链接列表都保存在这里,因此Nutch通过学习新的URL可以扩展它的爬取前端页。
parse_date
解析过程中收集的元数据,其中还有页面的出链接(frontier)列表。这些信息对于建立反向图(入链接-ink)是相当关键的。
parse_text
页面的纯文本内容适合用Lucene进行索引。这些纯文本存储成map文件,格式是<url,ParseText>,因此要展示搜索结果列表的概要信息(摘要)的时候,Nutch可以快速地访问这些文件。