natch常用的几个类

最新推荐文章于 2020-05-27 22:39:59 发布

fengzanfeng

最新推荐文章于 2020-05-27 22:39:59 发布

阅读量443

点赞数

分类专栏：搜索引擎文章标签：数据库管理工具 url lucene 数据库任务

本文链接：https://blog.csdn.net/fengzanfeng/article/details/6706644

版权

搜索引擎专栏收录该内容

7 篇文章 0 订阅

订阅专栏

抓取目录分析

一共生成5个文件夹,分别是:

l         crawldb目录存放下载的URL,以及下载的日期,用来页面更新检查时间.

l         linkdb目录存放URL的互联关系,是下载完成后分析得到的.

l         segments:存放抓取的页面,下面子目录的个数于获取的页面层数有关系,通常每一层页面会独立存放一个子目录,子目录名称为时间,便于管理.比如我这只抓取了一层页面就只生成了20090508173137目录.每个子目录里又有6个子文件夹如下:

Ø         content：每个下载页面的内容。

Ø         crawl_fetch：每个下载URL的状态。

Ø         crawl_generate：待下载URL集合。

Ø         crawl_parse：包含来更新crawldb的外部链接库。

Ø         parse_data：包含每个URL解析出的外部链接和元数据

Ø         parse_text：包含每个解析过的URL的文本内容。

l         indexs：存放每次下载的独立索引目录

l         index：符合Lucene格式的索引目录，是indexs里所有index合并后的完整索引
1.2 Crawl过程概述

引用到的类主要有以下9个：

1、 nutch.crawl.Inject

用来给抓取数据库添加URL的插入器

2、 nutch.crawl.Generator

用来生成待下载任务列表的生成器

3、 nutch.fetcher.Fetcher

完成抓取特定页面的抓取器

4、 nutch.parse.ParseSegment

负责内容提取和对下级URL提取的内容进行解析的解析器

5、 nutch.crawl.CrawlDb

负责数据库管理的数据库管理工具

6、 nutch.crawl.LinkDb

负责链接管理

7、 nutch.indexer.Indexer

负责创建索引的索引器

8、 nutch.indexer.DeleteDuplicates

删除重复数据

9、 nutch.indexer.IndexMerger

对当前下载内容局部索引和历史索引进行合并的索引合并器