分词器
在lucene中我们按照分词方式把文档进行索引,不同的分词器索引的效果不太一样,之前的例子使用的都是标准分词器,对于英文的效果很好,但是中文分词效果就不怎么样,他会按照汉字的字直接分词,没有词语的概念。
使用分词的地方只需要把Analyzer实例化成我们第三方的分词器即可
中文分词有很多,这里使用IKAnalyzer 为例,
下载地址 https://git.oschina.net/wltea/IK-Analyzer-2012FF 现在下来后里面有一篇教程。
高亮
导入lucene-highlighter-xxx.jar 在对查询出来的结果实现高亮显示
<code class="language-java hljs has-numbering" style="display: block; padding: 0px; color: inherit; box-sizing: border-box; font-family: "Source Code Pro", monospace;font-size:undefined; white-space: pre; border-radius: 0px; word-wrap: normal; background: transparent;"> <span class="hljs-comment" style="color: rgb(136, 0, 0); box-sizing: border-box;">// 关键字高亮显示的html标签,需要导入lucene-highlighter-xxx.jar</span>
SimpleHTMLFormatter simpleHTMLFormatter = <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">new</span> SimpleHTMLFormatter(<span class="hljs-string" style="color: rgb(0, 136, 0); box-sizing: border-box;">"<span style='color:red'>"</span>, <span class="hljs-string" style="color: rgb(0, 136, 0); box-sizing: border-box;">"</span>"</span>);
Highlighter highlighter = <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">new</span> Highlighter(simpleHTMLFormatter, <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">new</span> QueryScorer(query));
<span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">for</span> (<span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">int</span> i = <span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">0</span>; i < hits.length; i++) {
Document doc = isearcher.doc(hits[i].doc);
<span class="hljs-comment" style="color: rgb(136, 0, 0); box-sizing: border-box;">// 内容增加高亮显示</span>
TokenStream tokenStream = analyzer.tokenStream(<span class="hljs-string" style="color: rgb(0, 136, 0); box-sizing: border-box;">"content"</span>, <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">new</span> StringReader(doc.get(<span class="hljs-string" style="color: rgb(0, 136, 0); box-sizing: border-box;">"content"</span>)));
String content = highlighter.getBestFragment(tokenStream, doc.get(<span class="hljs-string" style="color: rgb(0, 136, 0); box-sizing: border-box;">"content"</span>));
System.out.println(content);
}</code>