关闭

Nutch数据组成(2)

1016人阅读 评论(0) 收藏 举报

段的组成:

每个段由5个文件夹组成,如果建立了索引的话就是六个文件夹。其中每个文件夹是一个ArrayFile对象。

包括:

文件夹名                保存内容               对应代码对象                   对应保存的值对象

content              抓取回来的网页内容,包括http头信息和其它元信息。默认情况下,protocol-httpclient 插件会做这项工作,当搜索的时候,如果你选查看缓存页面的话,就会从这里读数据。

                      contentWriter

                    net.nutch.protocol.Content

fetcher          保存的是抓取状态信息。

                 fetchWriter

                net.nutch.fetcher.FetcherOutput    这个对象由以下字段组成:版本,FetchListEntry,md5hash,ProtocolStatus,FetchDate

fetchlist          要抓取的url列表

                        fetchList

                      net.nutch.pagedb.FetchListEntry:这个对象由以下字段组成:版本,是否抓取标志,page对象,anchor的个数,每个anchor字符串

parse_data          从网页中解析出来的一些数据,例如元数据

                                parseDataWriter

                            net.nutch.parse.ParseData

parse_text          从网页中解析出来的文本数据

                             parseTextWriter

                              net.nutch.parse.ParseText

 

0
0

查看评论
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
    个人资料
    • 访问:61137次
    • 积分:929
    • 等级:
    • 排名:千里之外
    • 原创:27篇
    • 转载:8篇
    • 译文:0篇
    • 评论:16条
    最新评论