Lucene分词器及高亮

分词器

在lucene中我们按照分词方式把文档进行索引,不同的分词器索引的效果不太一样,之前的例子使用的都是标准分词器,对于英文的效果很好,但是中文分词效果就不怎么样,他会按照汉字的字直接分词,没有词语的概念。

使用分词的地方只需要把Analyzer实例化成我们第三方的分词器即可

中文分词有很多,这里使用IKAnalyzer 为例, 
下载地址 https://git.oschina.net/wltea/IK-Analyzer-2012FF 现在下来后里面有一篇教程。

高亮

导入lucene-highlighter-xxx.jar 在对查询出来的结果实现高亮显示

<code class="language-java hljs  has-numbering" style="display: block; padding: 0px; color: inherit; box-sizing: border-box; font-family: "Source Code Pro", monospace;font-size:undefined; white-space: pre; border-radius: 0px; word-wrap: normal; background: transparent;"> <span class="hljs-comment" style="color: rgb(136, 0, 0); box-sizing: border-box;">// 关键字高亮显示的html标签,需要导入lucene-highlighter-xxx.jar</span>
            SimpleHTMLFormatter simpleHTMLFormatter = <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">new</span> SimpleHTMLFormatter(<span class="hljs-string" style="color: rgb(0, 136, 0); box-sizing: border-box;">"<span style='color:red'>"</span>, <span class="hljs-string" style="color: rgb(0, 136, 0); box-sizing: border-box;">"</span>"</span>);
            Highlighter highlighter = <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">new</span> Highlighter(simpleHTMLFormatter, <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">new</span> QueryScorer(query));

            <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">for</span> (<span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">int</span> i = <span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">0</span>; i < hits.length; i++) {
                Document doc = isearcher.doc(hits[i].doc);
                <span class="hljs-comment" style="color: rgb(136, 0, 0); box-sizing: border-box;">// 内容增加高亮显示</span>
                TokenStream tokenStream = analyzer.tokenStream(<span class="hljs-string" style="color: rgb(0, 136, 0); box-sizing: border-box;">"content"</span>, <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">new</span> StringReader(doc.get(<span class="hljs-string" style="color: rgb(0, 136, 0); box-sizing: border-box;">"content"</span>)));
                String content = highlighter.getBestFragment(tokenStream, doc.get(<span class="hljs-string" style="color: rgb(0, 136, 0); box-sizing: border-box;">"content"</span>));
                System.out.println(content);
            }</code>
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值