Lucene增加高亮显示后结果更高明显了,但是返回结果的速度比较慢.原因是Lucene做每一篇文档的相关关键词的高亮显示时,在运行时执行了很多遍的分词操作,降低了性能.
TermVector保存Token.getPositionIncrement() 和Token.startOffset() 以及Token.endOffset() 信息。利用Lucene中新增加的Token信息的保存结果以后,就不需要为了高亮显示而在运行时解析每篇文档。通过Field方法控制是否保存该信息
- publicvoidsearcher()throwsIOException{
- IndexReaderreader=IndexReader.open(directory);
- IndexSearchersearcher=newIndexSearcher(directory);
- TermQueryquery=newTermQuery(newTerm("subject","java"));
- Hitshits=searcher.search(query);
- //高亮显示设置
- SimpleHTMLFormattersimpleHTMLFormatter=newSimpleHTMLFormatter("<fontcolor='red'>","</font>");
- Highlighterhighlighter=newHighlighter(simpleHTMLFormatter,newQueryScorer(query));
- //这个100是指定关键字字符串的context的长度,你可以自己设定,因为不可能返回整篇正文内容
- highlighter.setTextFragmenter(newSimpleFragmenter(100));
- for(inti=0;i<hits.length();i++){
- Documentdoc=hits.doc(i);
- TermPositionVectortermFreqVector=(TermPositionVector)reader.getTermFreqVector(hits.id(i),"subject");
- TokenStreamtokenStream=TokenSources.getTokenStream(termFreqVector);
- Stringresult=highlighter.getBestFragment(tokenStream,doc.get("subject"));
- System.out.println(doc.get("title"));
- System.out.println(result);
- }
- }
从别处转的发现reader.getTermFreqVector(hits.id(i),"subject")总是返回空值