Nutch数据的组成

原创 2006年06月02日 19:00:00
Nutch由以下数据组成:
1,爬行数据库(crawdb):包含所有nutch已知的url,这个url是否被爬过,如果被爬过,是什么时候。
2,链接数据库(linkdb):这里面包含的信息是每个url已知的链接信息。包括每个链接的锚点文本和源url。
3,一组段。段信息另篇再说。
4,索引库,用的是lucene的。(参见lucene)

1和2组成了webdb。webdb包含4个文件(在物理视图上是文件夹):
-- Pages, sorted by URL (pagesByURL)按URL排序的Page对象数组
-- Pages, sorted by MD5 (pagesByMD5)按MD5排序的Page对象数组
-- Links, sorted by URL(linksByURL)按URL排序的Link对象数组
-- Links, sorted by MD5(linksByMD5)按MD5排序的Link对象数组

[Nutch]Nutch抓取过程中生成的目录内容分析

在上一篇博文中有和大家介绍了nutch爬虫抓取数据的整个过程,爬虫一般会抓取到很多的内容,那么这些内容都存放到什么地方了呢?其实nutch在抓取的过程中会产生很多的目录,会把抓到的内容分别保存到不同的...
  • Kandy_Ye
  • Kandy_Ye
  • 2016年04月24日 13:48
  • 1774

Nutch抓取数据内容的详解

命令:$ bin/nutch crawl tianya -dir crawl_tianya -depth 3 -topN 10(存放seed路径在tianya目录下) 抓取过程为: Inj...
  • qiange520
  • qiange520
  • 2016年03月03日 18:15
  • 1992

转载:通过Java API编程实现Nutch Crawler抓取数据存储到MySQL数据库

Nutch Crawler抓取数据并存储到MySQL Apache Nutch是在Java平台上开发的开源网络爬虫工具。按照Nutch官方网站给出的向导,通过使用Nutch命令,可以比较容易地抓...
  • u012110719
  • u012110719
  • 2015年09月22日 11:19
  • 1570

Nutch-2.2.1学习之五Nutch抓取数据在HBase中的存储

Nutch-2.2.1爬取的数据可以存储在HBase、Accumulo、Cassandra、MySQL、DataFileAvroStore、AvroStor中,这是与Nutch-1.x系列很大的区别,...
  • sky_walker85
  • sky_walker85
  • 2013年12月12日 20:26
  • 11361

一个大数据方案:基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎

网络爬虫架构在Nutch+Hadoop之上,是一个典型的分布式离线批量处理架构,有非常优异的吞吐量和抓取性能并提供了大量的配置定制选项。由于网络爬虫只负责网络资源的抓取,所以,需要一个分布式搜索引擎,...
  • longshenlmj
  • longshenlmj
  • 2014年10月08日 11:22
  • 2309

Nutch-2.2.1学习之八过滤抓取数据

在Nutch的conf目录中有automaton-urlfilter.txt、regex-urlfilter.txt、suffix-urlfilter.txt、prefix-urlfilter.txt...
  • sky_walker85
  • sky_walker85
  • 2013年12月25日 20:28
  • 6783

Nutch爬虫引擎使用分析

Nutch2.X主要执行流程: 1)InjectorJob: 从文件中得到一批种子网页,把它们放到抓取数据库中去 2)GeneratorJob:从抓取数据库中产生要抓取的页面放到抓取队列中去 3...
  • fjssharpsword
  • fjssharpsword
  • 2016年04月08日 17:19
  • 2893

nutch从搜索引擎到网络爬虫

人物介绍 姓名:DougCutting 个人名望:开发出开源全文检索引擎工具包Lucene。 个人简介/主要荣誉:除了 Lucene,还开发了著名的网络爬虫工具 Nutch,分布式系统基础架构 H...
  • baolibin528
  • baolibin528
  • 2014年09月19日 19:01
  • 1986

转:使用Nutch和Solr抓取并索引网页

Nutch和Solr是两个由Apache成员创建的实用工具,你可以使用Nutch抓取网页,使用Solr索引你得到的数据。 除了索引各类网站,这些工具还有很多其他功能,本文将不涉及这些,而是一篇针对如...
  • u012110719
  • u012110719
  • 2015年08月11日 17:27
  • 1444

Nutch和Lucene的区别

想做一个搜索引擎,最近浏览了许多社区,发现Lucene和Nutch用的很多,而这两个我总感觉难以区分概念, 于是在查了些资料。下面是Lucene和Nutch创始人Doug Cutting 的访谈摘录:...
  • qq_20545159
  • qq_20545159
  • 2015年12月30日 12:41
  • 456
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Nutch数据的组成
举报原因:
原因补充:

(最多只允许输入30个字)