ATCO[这里,只是顺手插曲]

KEEP住个势,努力!

linux下nutch的安装配置

Nutch,一个爬虫或者搜索引擎(加上索引的话)。 现在Nutch的最新版本是Nutch2.1。Nutch所有的版本可在这个网址下载http://archive.apache.org/dist/nutch/,这里使用的是Nutch1.6。 1. 下载Nutch1.6. 到h...

2013-02-26 16:31:41

阅读数 5190

评论数 0

nutch相关目录说明

Nutch数据包含3个目录结构,分别是: 1、Crawldb:用于存储Nutch将要检索的url信息,以及检索状态(是否检索、何时检索) 2、Linkdb:用于存储每一个url所包含的超链接信息(包括锚点) 3、Segments:一组url的集合,他们作为一个检索单元,可用于分布...

2013-02-21 16:12:54

阅读数 560

评论数 0

Nutch工作流程-说明性文档

Nutch工作流程:建立初始URL集合分析 初始URL集的建立有两种方式:超链接和站长提交。 超链接 是指机器人程序根据网页链到其他网页中的超链接,就像日常生活中所说的“一传十,十传百……”一样,从少数几个网页开始,连到数据库上所有到其他网页的链接。理论上,若网页上有适当的超连结,机器...

2013-02-05 14:27:10

阅读数 544

评论数 0

提示
确定要删除当前文章?
取消 删除