nutch
文章平均质量分 75
lianqiang198505
这个作者很懒,什么都没留下…
展开
-
nutch爬虫之UpdateSegmentsFromDb类的作用
在nutch的爬虫运行过程中有这样的一个调用(在CrawlTool中):// update segments from db UpdateSegmentsFromDb updater = new UpdateSegmentsFromDb(nfs, db, segments, dir); updater.run();正如注释所说,原创 2006-10-17 14:44:00 · 1136 阅读 · 0 评论 -
Lucene中Token类的positionIncrement字段取不同值的作用
这个字段决定当前token相对于上一个token的位置(当前token的位置就是上一个token位置的值与positionIncrement的值的和),它的作用主要体现在短语查询(phrase search)中.一般它的默认值是1.但是可以把它设置为0或者大于1的值,起作用分别如下:1. 当设置为0的时候是一个词有多个词干的情况下(这里指英文).短语查询对短语中的两个词之间原创 2006-11-24 18:08:00 · 1349 阅读 · 1 评论 -
最近发现的几个bug
最近一直在对nutch进行一定的修改,以满足目前实习基地的需求,但是最近发现了几个存在的bug,鉴于时间关系,目前不能去从根本上解决,等忙完这段,自己的知识再丰富丰富,去试着看看能不能从根本上解决; 当调用standard analyzer进行切词处理的时候,发现对于类型的token识别的不好,比如对“http://www.sohu.com/aaa/123ee原创 2007-01-08 10:43:00 · 1145 阅读 · 0 评论 -
nutch-0.9使用手记
前两天试用了nutch目前的最新版本。这个版本是完全建立在hadoop基础上的,也就是一个分布式的系统。下载以后一看代码,目前的代码和我去年看的Nutch-0.7.2的代码已经有本质的变化了,再看不到我熟悉的代码了!去网上搜索了一下,发现了一篇很好的知道文档,这个给出链接地址http://wiki.apache.org/nutch/NutchHadoopTutorial按照这个上面的原创 2007-04-18 21:05:00 · 3322 阅读 · 0 评论 -
gfs(google file system)
原文出处:http://www.fulin.org/blog/2007/02/05/google-file-system/关于:The Google File SystemSanjay Ghemawat, Howard Gobioff, and Shun-Tak LeungGoogle?{sanjay,hgobioff,shuntak}@google.com排版文件参考: http://w转载 2007-04-23 20:29:00 · 2860 阅读 · 0 评论