埃秒人生(MicroDream Soft)

微梦软件,让每个微笑的梦想成真

Nutch数据的组成
Nutch由以下数据组成:
1,爬行数据库(crawdb):包含所有nutch已知的url,这个url是否被爬过,如果被爬过,是什么时候。
2,链接数据库(linkdb):这里面包含的信息是每个url已知的链接信息。包括每个链接的锚点文本和源url。
3,一组段。段信息另篇再说。
4,索引库,用的是lucene的。(参见lucene)

1和2组成了webdb。webdb包含4个文件(在物理视图上是文件夹):
-- Pages, sorted by URL (pagesByURL)按URL排序的Page对象数组
-- Pages, sorted by MD5 (pagesByMD5)按MD5排序的Page对象数组
-- Links, sorted by URL(linksByURL)按URL排序的Link对象数组
-- Links, sorted by MD5(linksByMD5)按MD5排序的Link对象数组
阅读更多
文章标签: lucene url 数据库
个人分类: 搜索技术和IR技术
想对作者说点什么? 我来说一句

nutch 爬到的CSDN数据 nutch crawl

2009年11月07日 1.7MB 下载

没有更多推荐了,返回首页

不良信息举报

Nutch数据的组成

最多只允许输入30个字

加入CSDN,享受更精准的内容推荐,与500万程序员共同成长!
关闭
关闭