nutch搜索引擎windows版本,包含中文分词技术

2009年5月5日      星期二    天气晴

 

        第一次写博客,希望自己的这点技术可以帮到新人,也可以让高手提点一下吧。

 

        公司项目要做一个搜索引擎的,以前没有接触过,既然公司有了这样的需求,不会也要迎着头皮上了,2月份接手,中间停了半个月,三月份继续,满打满算的有两个月了吧,从不懂搜索引擎到现在算是有些小成就了吧。

 

        公司交任务时让我用nutch做,其实我也不知道用什么,不过既然说了nutch那就看看吧,网上搜资料,===现在越来越发现,自己离不开网络了,离不开google了,只要有不懂的,不会的,不知道的,google一下,什么资料都有了。===不过网上nutch的资料也不是很多,尤其是做国内的项目,中文分词也是一个比较麻烦的事情,反正是网上搜资料,找分词插件,有IKAnalyzer.jar,庖丁,。。。找了几个,最后还是决定用IKAnlyzer.jar了,在这里要感谢原作者把源代码共享了。

 

 

        经过不断的实验,测试,最终修改IKAnlyzer源代码,使其可以自定义关键字字典了,也就是可以根据自己所属的行业,将行业关键字作为字典来检索了,由于我作的公安项目的,所以mykeywords里装的都是公安有关的关键字。

 

       修改了nutch的源代码,使其可以在一个定时线程中运行,我定的是每天晚上1点钟抓取网页,也许这样太频繁了,不过,我也不知道要定义多长时间更新索引,就索性定位每天一次了,反正一个bat文件就和tomcat一样开了,就放到那里让他自己运行着就行了。

 

 

       在网上查nutch资料时发现好多教程,博客,都是千篇一律,就连定义的属性都一样,可没一个都写着原创,,真不可思议,不过我厌恶的是我要查资料,在google里总是出现这样url不同,但内容相同的东东,让我的查询资料有了不少的麻烦,而且查到的也不能运行,总是有些小BUG,不知道发帖的人有没有自己测试,还是直接抄别人的就发到自己的博客上了,,晕死了,,,

 

       这次修改nutch源代码,实现了可以在windows机下直接运行,也不用写那么多脚本了,麻烦,还总是出错,就一个bat就行了。

 

nutchcrawlForWindows

 

 

nutchcrawlForWindows     

 

 

 nutchcrawlForWindows

 

 

 

nutchcrawlForWindows

 

 

==================我是分割线=====================

  

 把项目成品发上来,,直接联系我所要也可以,,,本文章在我的csdn博客中也又发表,均为原创,由于资源大小限制,请到我的csdn博客下载资源:http://blog.csdn.net/myhongkongzhen/archive/2009/05/05/4150750.aspx

搜索资源名:

nutch搜索引擎windows版本,运行bat文件即可 

 

http://download.csdn.net/source/1351580修改版part1

http://download.csdn.net/source/1351677 修改版part2

http://download.csdn.net/source/1351721修改版part3

 一同下载

 

 

      如果大家有什么不明白的地方,可以联系我qq511134962

      msn:myhongkongzhen@gmail.com

 

 

      我试验了两台机,可以直接运行,如果下载下来不能直接运行,也请联系我,,一般是没有问题的,,

 

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值