关于Lucene.net中文分词后的结果着色问题

 

近日工作中有一个项目使用到了Lucene.net,在工作中发现了一个问题,就是如果采用Lucene自带的分词器是对关键字按字来进行拆分的,这样搜索到的结果肯定不符合我们的要求。后来在网上找了一个中文分词工具,就是车东老师写的CJK分词器,可当采用CJK二元分词法以后,却发现一个问题,搜索到的结果是对的,但着色是错误的,比如我们对如下文本进行搜索

我是一个中国人,我是一个伟大的中国人

当采用关键字伟大进行搜索的时候

会着色成这样

我是一个中国人,<span class=/"keyword/">我是一个伟大的中国人</span>

而我们需要的当然是

我是一个中国人,我是一个<span class=/"keyword/">伟大</span>的中国人

刚开始还以为是Lucene.net不支持中文着色的问题,后来在Lucene.net的开源网站上下载了一个3.0的版本,跟踪进去后,发现仍然没有解决这个问题,这个问题的原因出在Highlighter.Net_Source这个类库中的TokenGroup类有一个IsDistinct方法,这个方法只有一句代码 return (token.StartOffset() >= this.endOffset); 由于英文是通过空格来区分每个词的,所以token.StartOffset()是会出现大于等于his.endOffset的情况的,但中文是不通过空格来分隔的,这样就只有再Lucene遇到,。;等分隔符的时候,它才会判断为一段词结束,原因找到了以后,就开始想一下解决办法了,没有想的什么太好的办法,最后采用的是中文虽然没有分隔符,但不妨碍我们自己增加分隔符号,可以找到每个关键字的索引,然后再对应关键字头尾增加分隔符,这样就解决了这个问题,当然最好的办法还是直接重写Highlighter类库,加入对中文日文韩文这种文字型语言的支持,这点希望有加入这个开源项目的朋友反馈一下

附带源代码如下

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值