Nutch数据组成(2)

原创 2006年06月03日 16:27:00

段的组成:

每个段由5个文件夹组成,如果建立了索引的话就是六个文件夹。其中每个文件夹是一个ArrayFile对象。

包括:

文件夹名                保存内容               对应代码对象                   对应保存的值对象

content              抓取回来的网页内容,包括http头信息和其它元信息。默认情况下,protocol-httpclient 插件会做这项工作,当搜索的时候,如果你选查看缓存页面的话,就会从这里读数据。

                      contentWriter

                    net.nutch.protocol.Content

fetcher          保存的是抓取状态信息。

                 fetchWriter

                net.nutch.fetcher.FetcherOutput    这个对象由以下字段组成:版本,FetchListEntry,md5hash,ProtocolStatus,FetchDate

fetchlist          要抓取的url列表

                        fetchList

                      net.nutch.pagedb.FetchListEntry:这个对象由以下字段组成:版本,是否抓取标志,page对象,anchor的个数,每个anchor字符串

parse_data          从网页中解析出来的一些数据,例如元数据

                                parseDataWriter

                            net.nutch.parse.ParseData

parse_text          从网页中解析出来的文本数据

                             parseTextWriter

                              net.nutch.parse.ParseText

 

[Nutch]Nutch抓取过程中生成的目录内容分析

在上一篇博文中有和大家介绍了nutch爬虫抓取数据的整个过程,爬虫一般会抓取到很多的内容,那么这些内容都存放到什么地方了呢?其实nutch在抓取的过程中会产生很多的目录,会把抓到的内容分别保存到不同的...
  • Kandy_Ye
  • Kandy_Ye
  • 2016年04月24日 13:48
  • 1771

Nutch抓取数据内容的详解

命令:$ bin/nutch crawl tianya -dir crawl_tianya -depth 3 -topN 10(存放seed路径在tianya目录下) 抓取过程为: Inj...
  • qiange520
  • qiange520
  • 2016年03月03日 18:15
  • 1987

Nutch-2.2.1学习之五Nutch抓取数据在HBase中的存储

Nutch-2.2.1爬取的数据可以存储在HBase、Accumulo、Cassandra、MySQL、DataFileAvroStore、AvroStor中,这是与Nutch-1.x系列很大的区别,...
  • sky_walker85
  • sky_walker85
  • 2013年12月12日 20:26
  • 11354

Nutch 2.x在MyEclipse中爬取数据到MySQL和Solr

下面的教程主要来源于Wilco的Windows7环境下MyEclipse+Nutch2.2.1+Mysql搭建 但是教程中有些地方不对,下面是更正后的,另外加了如何配置爬取数据到Solr...
  • heroafei
  • heroafei
  • 2014年12月16日 17:54
  • 1216

Nutch-1.0 part2

  • 2009年09月17日 15:46
  • 14.31MB
  • 下载

Lucene+Nutch搜索源码.part2.rar

  • 2009年09月21日 15:47
  • 7.63MB
  • 下载

Lucene+nutch搜索引擎开发(全本2-1)

  • 2013年04月05日 07:39
  • 47.68MB
  • 下载

lucene+nutch搜索引擎开发原书配套源码part_2

  • 2009年11月21日 16:40
  • 9.7MB
  • 下载

nutch2.x的pom文件

  • 2013年09月30日 13:46
  • 12KB
  • 下载

Lucene+nutch开发自己的搜索引擎 part2

  • 2010年05月17日 15:47
  • 9.65MB
  • 下载
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Nutch数据组成(2)
举报原因:
原因补充:

(最多只允许输入30个字)