Nutch数据的组成

原创 2006年06月02日 19:00:00
Nutch由以下数据组成:
1,爬行数据库(crawdb):包含所有nutch已知的url,这个url是否被爬过,如果被爬过,是什么时候。
2,链接数据库(linkdb):这里面包含的信息是每个url已知的链接信息。包括每个链接的锚点文本和源url。
3,一组段。段信息另篇再说。
4,索引库,用的是lucene的。(参见lucene)

1和2组成了webdb。webdb包含4个文件(在物理视图上是文件夹):
-- Pages, sorted by URL (pagesByURL)按URL排序的Page对象数组
-- Pages, sorted by MD5 (pagesByMD5)按MD5排序的Page对象数组
-- Links, sorted by URL(linksByURL)按URL排序的Link对象数组
-- Links, sorted by MD5(linksByMD5)按MD5排序的Link对象数组

相关文章推荐

Nutch抓取数据内容的详解

命令:$ bin/nutch crawl tianya -dir crawl_tianya -depth 3 -topN 10(存放seed路径在tianya目录下) 抓取过程为: Inj...

一个大数据方案:基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎

网络爬虫架构在Nutch+Hadoop之上,是一个典型的分布式离线批量处理架构,有非常优异的吞吐量和抓取性能并提供了大量的配置定制选项。由于网络爬虫只负责网络资源的抓取,所以,需要一个分布式搜索引擎,...

Nutch抓取数据内容的详解

之前以sina和csdn的blog为seed进行抓取,都出现Stopping at depth=1 - no more URLs to fetch. 所以最终以http://www.tianya.c...

Nutch数据在各模块间的传递

Google MapReduce研究综述 MapReduce研究探讨体会 MapReduce : Simplified Data Processing on Large Clusters ...

nutch1.3数据流程图

流程入口org.apache.nutch.crawl   crawl.java    Crawl::run  里面的很多类中都使用了mapreduce框架进行数据处理 ulrs:存放在hdfs中的待...
  • A221133
  • A221133
  • 2011年10月10日 14:09
  • 806

[wordpress搬家]nutch的二三事 — 数据清洗

[2013.12.27] 好吧……这篇文章与nutch有关系也没有关系。 在nutch把数据放入数据库以后,因为是非结构化的,所以我们还需要从中提取我们需要的数据,这时就需要清洗数据了。 自...

Nutch-2.2.1学习之八过滤抓取数据

在Nutch的conf目录中有automaton-urlfilter.txt、regex-urlfilter.txt、suffix-urlfilter.txt、prefix-urlfilter.txt...

Nutch抓取数据分析

2011-07-20 18:00 684人阅读 评论(0) 收藏 举报 由于刚开始理解错误,以为搜索索引可以作为数据挖掘的输入信息,后面才发现错了,由solr/nutch/lucene形成的只是...

nutch 1.7 修改需要保存建立索引的数据

默认nutch 1.7 与solr建的索引 字段 都在

Nutch 2.x在MyEclipse中爬取数据到MySQL和Solr

下面的教程主要来源于Wilco的Windows7环境下MyEclipse+Nutch2.2.1+Mysql搭建 但是教程中有些地方不对,下面是更正后的,另外加了如何配置爬取数据到Solr...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Nutch数据的组成
举报原因:
原因补充:

(最多只允许输入30个字)