埃秒人生(MicroDream Soft)

微梦软件,让每个微笑的梦想成真

Nutch数据组成(2)

段的组成:

每个段由5个文件夹组成,如果建立了索引的话就是六个文件夹。其中每个文件夹是一个ArrayFile对象。

包括:

文件夹名                保存内容               对应代码对象                   对应保存的值对象

content              抓取回来的网页内容,包括http头信息和其它元信息。默认情况下,protocol-httpclient 插件会做这项工作,当搜索的时候,如果你选查看缓存页面的话,就会从这里读数据。

                      contentWriter

                    net.nutch.protocol.Content

fetcher          保存的是抓取状态信息。

                 fetchWriter

                net.nutch.fetcher.FetcherOutput    这个对象由以下字段组成:版本,FetchListEntry,md5hash,ProtocolStatus,FetchDate

fetchlist          要抓取的url列表

                        fetchList

                      net.nutch.pagedb.FetchListEntry:这个对象由以下字段组成:版本,是否抓取标志,page对象,anchor的个数,每个anchor字符串

parse_data          从网页中解析出来的一些数据,例如元数据

                                parseDataWriter

                            net.nutch.parse.ParseData

parse_text          从网页中解析出来的文本数据

                             parseTextWriter

                              net.nutch.parse.ParseText

 

阅读更多
文章标签: 工作 url
个人分类: 搜索技术和IR技术
想对作者说点什么? 我来说一句

没有更多推荐了,返回首页

不良信息举报

Nutch数据组成(2)

最多只允许输入30个字

加入CSDN,享受更精准的内容推荐,与500万程序员共同成长!
关闭
关闭