Nutch数据组成(2)

原创 2006年06月03日 16:27:00

段的组成:

每个段由5个文件夹组成,如果建立了索引的话就是六个文件夹。其中每个文件夹是一个ArrayFile对象。

包括:

文件夹名                保存内容               对应代码对象                   对应保存的值对象

content              抓取回来的网页内容,包括http头信息和其它元信息。默认情况下,protocol-httpclient 插件会做这项工作,当搜索的时候,如果你选查看缓存页面的话,就会从这里读数据。

                      contentWriter

                    net.nutch.protocol.Content

fetcher          保存的是抓取状态信息。

                 fetchWriter

                net.nutch.fetcher.FetcherOutput    这个对象由以下字段组成:版本,FetchListEntry,md5hash,ProtocolStatus,FetchDate

fetchlist          要抓取的url列表

                        fetchList

                      net.nutch.pagedb.FetchListEntry:这个对象由以下字段组成:版本,是否抓取标志,page对象,anchor的个数,每个anchor字符串

parse_data          从网页中解析出来的一些数据,例如元数据

                                parseDataWriter

                            net.nutch.parse.ParseData

parse_text          从网页中解析出来的文本数据

                             parseTextWriter

                              net.nutch.parse.ParseText

 

相关文章推荐

Nutch 2.x在MyEclipse中爬取数据到MySQL和Solr

下面的教程主要来源于Wilco的Windows7环境下MyEclipse+Nutch2.2.1+Mysql搭建 但是教程中有些地方不对,下面是更正后的,另外加了如何配置爬取数据到Solr...

Nutch-1.0 part2

  • 2009年09月17日 15:46
  • 14.31MB
  • 下载

Lucene+nutch开发自己的搜索引擎 part2

  • 2010年05月17日 15:47
  • 9.65MB
  • 下载

Nutch2 WebPage写入数据库的过程分析

版本: Nutch 2.2.1 本文通过InjectJob来追踪webpage的定义、创建、传递、序列化、写入数据库的整个过程。从源码中摘录了重要的代码行,并标明其所在文件名、行号。 1. 定...
  • itufo
  • itufo
  • 2014年03月07日 18:56
  • 3379

apache-nutch-1.4-bin.tar.gz.part2

  • 2012年03月26日 17:21
  • 34.03MB
  • 下载

Nutch抓取错误——java.sql.BatchUpdateException: Incorrect string value: '\xF2\xA3\xAC\xB7\xEF\xBF.

Nutch抓取错误:java.sql.BatchUpdateException: Incorrect string value: '\xF2\xA3\xAC\xB7\xEF\xBF. utf-8与ut...

apache-nutch-1.4-bin.part2

  • 2012年03月26日 17:06
  • 34.03MB
  • 下载

nutch1.8最新版2014.6.10part2

  • 2014年06月10日 09:29
  • 30.49MB
  • 下载

Nutch 1.3 学习笔记 10-2 插件扩展

Nutch 1.3 学习笔记 插件扩展 10-2 --------------------------------- 1. 自己扩展一个简单的插件    这里扩展一个Nutch的URLFil...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Nutch数据组成(2)
举报原因:
原因补充:

(最多只允许输入30个字)