nutch1.0中索引的更新和维护

最新推荐文章于 2024-10-10 09:56:47 发布

hfutxrg

最新推荐文章于 2024-10-10 09:56:47 发布

阅读量869

点赞数

分类专栏：搜索引擎文章标签： exception 脚本 java merge url

搜索引擎专栏收录该内容

11 篇文章 0 订阅

订阅专栏

1、写一个维护脚本，定时运行，是个好办法

 #!/bin/bash
 
# Set JAVA_HOME to reflect your systems java configuration
export JAVA_HOME=/usr/lib/j2sdk1.5-sun 
 
# Start index updation，只查找最热门的前1000条记录,由此创建新的segment
bin/nutch generate crawl.mydomain/db crawl.mydomain/segments -topN 1000
#得到最新的segment目录名
s=`ls -d crawl.virtusa/segments/2* | tail -1`
echo Segment is $s
bin/nutch fetch $s
bin/nutch updatedb crawl.mydomain /db $s
bin/nutch analyze crawl.mydomain /db 5
bin/nutch index $s
#删除重复记录
bin/nutch dedup crawl.mydomain /segments crawl.mydomain/tmpfile 
 
# Merge segments to prevent too many open files exception in Lucene
#合并成一个新的segment
bin/nutch mergesegs -dir crawl.mydomain/segments -i -ds
s=`ls -d crawl.mydomain/segments/2* | tail -1`
echo Merged Segment is $s
 
rm -rf crawl.mydomain/index

2、以上是在urls文件内容没有变化的时候采用的办法，如果我加入的新的URL在urls文件里，那么在运行generate以前，要执行下面一命令：
#bin/nutch inject crawl.mydomain/db -urlfile urls
在generate的时候，如果不加topN参数，那么crawl只会去处理新加的或原来由于其它原因没有fetch的url或page，所以我感觉，脚本1和用2修改的脚本交替运行，会有很好的效果。

转载自http://blog.sina.com.cn/s/blog_587422ce010004ew.html