nutch爬虫流程

Nutch的输出文件(不包括临时文件)主要可分为crawldb、index、indexs、linkdb和segments。 Crawldb Crawldb是所有需要抓取的超连接信息 Segments Segments是每轮抓取的时候根据crawldb生成的。存放的信息包括6种content、crawl_fetch、crawl_generate、crawl_parse、parse_data、parse_text。其中content是抓取下来的网页内容;crawl_generate最初生成;crawl_fetch、content在抓取时生成;crawl_parse、parse_data、parse_text在解析抓取的数据文件时生成。其中crawl_generate、crawl_fetch和crawl_parse是crawldb的部分url数据,它们格式一样,不同的是抓取时间、状态、签名等有所变化。格式如下: crawl_generate、crawl_fetch、crawl_parse、crawldb的格式// http://www.163.com/ Version: 4 Status: 5 (fetch_success) Fetch time: Thu Oct 26 19:20:33 CST 2006 Modified time: Thu Jan 01 08:00:00 CST 1970 Retries since fetch: 0 Retry interval: 30.0 days Score: 1.0 Signature: 3029c621e26c43797241a8d34980b2dc Metadata: null parse_data的格式如下: …… outlink: toUrl: http://cha.so.163.com/so.php?key=001001006&q=%CA%D6%BB%FA anchor: 手机 Content Metadata: nutch.crawl.score=1.0 nutch.content.digest=3029c621e26c43797241a8d34980b2dc Content-Type=text/html; charset=GB2312 date=Thu, 26 Oct 2006 11:20:33 GMT Cache-Control=max-age=146 Content-Encoding=gzip Content-Length=19628 Connection=close Expires=Thu, 26 Oct 2006 11:23:00 GMT nutch.segment.name=20061026192026 Accept-Ranges=bytes Server=Apache/2.0.55 (Unix) X-Cache=HIT from www.163.com Vary=Accept-Encoding Parse Metadata: OriginalCharEncoding=GB2312 CharEncodingForConversion=GB2312 parse_text是网页的文本信息。 Index 据初步分析index由indexs合并而来的,存放的是索引信息。在非分布式搜索时优先根据查找index文件夹,如果不存在则查找indexs。 Linkdb Linkdb中存放的是所有超连接及其每个连接的连入地址和锚文本。读取出来的格式如下: http://tech.163.com/06/1025/18/2UA64IC300091537.html Inlinks: fromUrl: http://tech.163.com/discover/ anchor: fromUrl: http://tech.163.com/discover/ anchor: 蟒蛇鳄鱼颠峰对决 ……
<p>Nutch的创始人是Doug Cutting,他同时也是Lucene、Hadoop和Avro开源项目的创始人。</p><p>Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引擎演化为网络爬虫,接着Nutch进一步演化为两大分支版本:1.X和2.X,这两大分支最大的区别在于2.X对底层的数据存储进行了抽象以支持各种底层存储技术。</p><p>在Nutch的进化过程中,产生了Hadoop、Tika、Gora和Crawler Commons四个Java开源项目。如今这四个项目都发展迅速,极其火爆,尤其是Hadoop,其已成为大规模数据处理的事实上的标准。Tika使用多种现有的开源内容解析项目来实现从多种格式的文件中提取元数据和结构化文本,Gora支持把大数据持久化到多种存储实现,Crawler Commons是一个通用的网络爬虫组件。</p><p>大数据这个术语最早的引用可追溯到Nutch。当时,大数据用来描述为更新网络搜索索引需要同时进行批量处理或分析的大量数据集。现在,大数据的含义已经被极大地发展了,业界将大数据的特性归纳为4个“V”。Volume数据体量巨大,Variety数据类型繁多,Value价值密度低,商业价值高,Velocity处理速度快。</p><p>Hadoop是大数据的核心技术之一,而Nutch集Hadoop之大成,是Hadoop的源头。学习Hadoop,没有数据怎么办?用Nutch抓!学了Hadoop的Map Reduce以及HDFS,没有实用案例怎么办?学习NutchNutch的很多代码是用Map Reduce和HDFS写的,哪里还能找到比Nutch更好的Hadoop应用案例呢?</p>
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值