nutch二次开发
cuikai314
这个作者很懒,什么都没留下…
展开
-
Nutch 二次开发之parse正文内容
关于nutch的基础知识可以参考lemo的专栏nutch支持二次开发,为了满足搜索的准确率的问题,考虑仅仅将网页正文的内容提取出来作为索引的内容,对应的是parse_text的数据。我使用的事nutch1.4 版本,在cygwin下执行crawl命令进行爬取。bin/nutch crawl urls -dir crawl -depth 3 -topN 30爬取的流程如下:inject原创 2012-07-11 16:49:02 · 10247 阅读 · 6 评论 -
Nutch二次开发之定制爬取网站信息
第二篇文章探讨的是定制爬取的信息,之前的分析我们得到,爬取的框架主要包括:1)inject把自己写的url文件中的url经过过滤和正规化注入crawldb中,保存到crawldb目录下2)generate从crawldb中把url提取出来经过过滤正规化生成fetchlist队列,保存到segments的crawl_generate文件夹下3)fetch根据fetchlist队列将url原创 2012-07-19 15:38:23 · 9754 阅读 · 3 评论