段的组成:
每个段由5个文件夹组成,如果建立了索引的话就是六个文件夹。其中每个文件夹是一个ArrayFile对象。
包括:
文件夹名 保存内容 对应代码对象 对应保存的值对象
content 抓取回来的网页内容,包括http头信息和其它元信息。默认情况下,protocol-httpclient 插件会做这项工作,当搜索的时候,如果你选查看缓存页面的话,就会从这里读数据。
contentWriter
net.nutch.protocol.Content
fetcher 保存的是抓取状态信息。
fetchWriter
net.nutch.fetcher.FetcherOutput 这个对象由以下字段组成:版本,FetchListEntry,md5hash,ProtocolStatus,FetchDate
fetchlist 要抓取的url列表
fetchList
net.nutch.pagedb.FetchListEntry:这个对象由以下字段组成:版本,是否抓取标志,page对象,anchor的个数,每个anchor字符串
parse_data 从网页中解析出来的一些数据,例如元数据
parseDataWriter
net.nutch.parse.ParseData
parse_text 从网页中解析出来的文本数据
parseTextWriter
net.nutch.parse.ParseText