Lucene.Net的语言处理包中Lucene.Net.Analysis.Cn的Bug

    最近在对博客园的搜索程序进行改进。博客园的搜索功能用的是 Lucene.net 搜索引擎,当时博客园增加搜索功能时,Lucene.net还不支持中文分词, 后来得到 http://www.cnblogs.com/yuhen/ 的帮助才解决这个问题。(最近博客园的搜索程序出了问题, 暂时改用google)。
    现在,Lucene.net中支持分词功能, 我下载了语言处理包( Lucene.Net NLS Pack ),用其中的Lucene.Net.Analysis.Cn.ChineseAnalyzer建立索引,可是每次建立索引就出现死锁现象。看了sf.net上的这篇文章CJK Analysis maybe cause dead lock,我想到可能是Lucene.Net.Analysis.Cn中代码有Bug,查看了Lucene.Net.Analysis.Cn中的代码,果然有问题,在ChineseTokenizer的第148行,将dataLen == -1改为dataLen == 0, 死锁的问题就解决了。
    后来, 发现这篇文章 http://ms.mblogger.cn/yysun/posts/6092.aspx 中也讲到了Lucene.Net.Analysis.Cn中的Bug。
    我将两个bug改了一下,放在博客园上给需要者下载。虽然只改了两行代码,但我想改好了放在这,对一些初次使用者还是有点帮助的。
    Bin: http://www.cnblogs.com/Files/dudu/Lucene.Net.Analysis.Cn.rar
    Src: http://www.cnblogs.com/Files/dudu/Lucene.Net.NLS.rar
           转自: dudu 享受编程的快乐
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值