lucene中高亮遇到的问题

探讨使用Lucene默认HighLighter进行细粒度分词时的问题,例如搜索词为“中国大学”,对于“中国地质大学”这类词汇高亮不准确的情况。作者通过重写MarkedTokenGroup类解决了这一问题,并对HighLighter进行了相应的调整。
摘要由CSDN通过智能技术生成

之前做高亮,用lucene默认的HighLighter,显示结果的时候有个问题.但是也是在细颗粒分词的时候才出现的,比如说:

  中国地质大学  分词的时候是一个长词,如果细颗粒分词的话,我们希望分词结果是:

 

中国地质大学 |中国|地质|大学|

 

如果用HighLighter的话,就会有个问题,当搜索词是 "中国 大学"的时候,对"中国地质大学" 这个字符串的高亮就是错误的,正确的结果应该是 : "<b>中国</b>地质<b>大学</b>"

 

 而实际上高亮的结果是:<b>中国地质大学</b>    这基本上是因为汉语和英文的区别造成的

 

 自己重写MarkedTokenGroup这个类,解决的这个问题,并且对HighLighter也重写了,但修改的不多.

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值