抓取目录分析
一共生成5个文件夹,分别是:
l crawldb目录存放下载的URL,以及下载的日期,用来页面更新检查时间.
l linkdb目录存放URL的互联关系,是下载完成后分析得到的.
l segments:存放抓取的页面,下面子目录的个数于获取的页面层数有关系,通常每一层页面会独立存放一个子目录,子目录名称为时间,便于管理.比如我这只抓取了一层页面就只生成了20090508173137目录.每个子目录里又有6个子文件夹如下:
Ø content:每个下载页面的内容。
Ø crawl_fetch:每个下载URL的状态。
Ø crawl_generate:待下载URL集合。
Ø crawl_parse:包含来更新crawldb的外部链接库。
Ø parse_data:包含每个URL解析出的外部链接和元数据
Ø parse_text:包含每个解析过的URL的文本内容。
l indexs:存放每次下载的独立索引目录
l index:符合Lucene格式的索引目录,是indexs里所有index合并后的完整索引
1.2 Crawl过程概述
引用到的类主要有以下9个:
1、 nutch.crawl.Inject
用来给抓取数据库添加URL的插入器
2、 nutch.crawl.Generator
用来生成待下载任务列表的生成器
3、 nutch.fetcher.Fetcher
完成抓取特定页面的抓取器
4、 nutch.parse.ParseSegment
负责内容提取和对下级URL提取的内容进行解析的解析器
5、 nutch.crawl.CrawlDb
负责数据库管理的数据库管理工具
6、 nutch.crawl.LinkDb
负责链接管理
7、 nutch.indexer.Indexer
负责创建索引的索引器
8、 nutch.indexer.DeleteDuplicates
删除重复数据
9、 nutch.indexer.IndexMerger
对当前下载内容局部索引和历史索引进行合并的索引合并器
一共生成5个文件夹,分别是:
l crawldb目录存放下载的URL,以及下载的日期,用来页面更新检查时间.
l linkdb目录存放URL的互联关系,是下载完成后分析得到的.
l segments:存放抓取的页面,下面子目录的个数于获取的页面层数有关系,通常每一层页面会独立存放一个子目录,子目录名称为时间,便于管理.比如我这只抓取了一层页面就只生成了20090508173137目录.每个子目录里又有6个子文件夹如下:
Ø content:每个下载页面的内容。
Ø crawl_fetch:每个下载URL的状态。
Ø crawl_generate:待下载URL集合。
Ø crawl_parse:包含来更新crawldb的外部链接库。
Ø parse_data:包含每个URL解析出的外部链接和元数据
Ø parse_text:包含每个解析过的URL的文本内容。
l indexs:存放每次下载的独立索引目录
l index:符合Lucene格式的索引目录,是indexs里所有index合并后的完整索引
1.2 Crawl过程概述
引用到的类主要有以下9个:
1、 nutch.crawl.Inject
用来给抓取数据库添加URL的插入器
2、 nutch.crawl.Generator
用来生成待下载任务列表的生成器
3、 nutch.fetcher.Fetcher
完成抓取特定页面的抓取器
4、 nutch.parse.ParseSegment
负责内容提取和对下级URL提取的内容进行解析的解析器
5、 nutch.crawl.CrawlDb
负责数据库管理的数据库管理工具
6、 nutch.crawl.LinkDb
负责链接管理
7、 nutch.indexer.Indexer
负责创建索引的索引器
8、 nutch.indexer.DeleteDuplicates
删除重复数据
9、 nutch.indexer.IndexMerger
对当前下载内容局部索引和历史索引进行合并的索引合并器