nutch搜索引擎windows版本

2009年5月5日      星期二    天气晴

 

        第一次写博客,希望自己的这点技术可以帮到新人,也可以让高手提点一下吧。

 

        公司项目要做一个搜索引擎的,以前没有接触过,既然公司有了这样的需求,不会也要迎着头皮上了,2月份接手,中间停了半个月,三月份继续,满打满算的有两个月了吧,从不懂搜索引擎到现在算是有些小成就了吧。

 

        公司交任务时让我用nutch做,其实我也不知道用什么,不过既然说了nutch那就看看吧,网上搜资料,===现在越来越发现,自己离不开网络了,离不开google了,只要有不懂的,不会的,不知道的,google一下,什么资料都有了。===不过网上nutch的资料也不是很多,尤其是做国内的项目,中文分词也是一个比较麻烦的事情,反正是网上搜资料,找分词插件,有IKAnalyzer.jar,庖丁,。。。找了几个,最后还是决定用IKAnlyzer.jar了,在这里要感谢原作者把源代码共享了。

 

 

        经过不断的实验,测试,最终修改IKAnlyzer源代码,使其可以自定义关键字字典了,也就是可以根据自己所属的行业,将行业关键字作为字典来检索了,由于我作的公安项目的,所以mykeywords里装的都是公安有关的关键字。

 

       修改了nutch的源代码,使其可以在一个定时线程中运行,我定的是每天晚上1点钟抓取网页,也许这样太频繁了,不过,我也不知道要定义多长时间更新索引,就索性定位每天一次了,反正一个bat文件就和tomcat一样开了,就放到那里让他自己运行着就行了。

 

 

       在网上查nutch资料时发现好多教程,博客,都是千篇一律,就连定义的属性都一样,可没一个都写着原创,,真不可思议,不过我厌恶的是我要查资料,在google里总是出现这样url不同,但内容相同的东东,让我的查询资料有了不少的麻烦,而且查到的也不能运行,总是有些小BUG,不知道发帖的人有没有自己测试,还是直接抄别人的就发到自己的博客上了,,晕死了,,,

 

       这次修改nutch源代码,实现了可以在windows机下直接运行,也不用写那么多脚本了,麻烦,还总是出错,就一个bat就行了。

 

详细效果请看==

本文章在我的javaeye博客中的发表,http://myhongkongzhen.javaeye.com/blog/379430

 

       把项目成品发上来,,项目在我的资源里可以下载的到。。请查询我的资源或者是直接联系我所要也可以,,,

搜索资源名:nutch搜索引擎windows版本part1

还有第二部分,nutch搜索引擎windows版本part2 ,一同下载

 

      如果大家有什么不明白的地方,可以联系我qq511134962

      msn:myhongkongzhen@gmail.com

 

 

      我试验了两台机,可以直接运行,如果下载下来不能直接运行,也请联系我,,一般是没有问题的,,  

 

本文章在我的javaeye博客中也有发表,http://myhongkongzhen.javaeye.com/blog/379430

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值