Lucene增加高亮显示后结果更高明显

最新推荐文章于 2024-05-19 18:51:10 发布

iteye_9380

最新推荐文章于 2024-05-19 18:51:10 发布

阅读量235

点赞数

文章标签： java

Lucene增加高亮显示后结果更高明显了,但是返回结果的速度比较慢.原因是Lucene做每一篇文档的相关关键词的高亮显示时,在运行时执行了很多遍的分词操作,降低了性能.

TermVector保存Token.getPositionIncrement() 和Token.startOffset() 以及Token.endOffset() 信息。利用Lucene中新增加的Token信息的保存结果以后，就不需要为了高亮显示而在运行时解析每篇文档。通过Field方法控制是否保存该信息

Java代码

publicvoidsearcher()throwsIOException{
IndexReaderreader=IndexReader.open(directory);
IndexSearchersearcher=newIndexSearcher(directory);
TermQueryquery=newTermQuery(newTerm("subject","java"));
Hitshits=searcher.search(query);
//高亮显示设置
SimpleHTMLFormattersimpleHTMLFormatter=newSimpleHTMLFormatter("<fontcolor='red'>","</font>");
Highlighterhighlighter=newHighlighter(simpleHTMLFormatter,newQueryScorer(query));
//这个100是指定关键字字符串的context的长度，你可以自己设定，因为不可能返回整篇正文内容
highlighter.setTextFragmenter(newSimpleFragmenter(100));
for(inti=0;i<hits.length();i++){
Documentdoc=hits.doc(i);
TermPositionVectortermFreqVector=(TermPositionVector)reader.getTermFreqVector(hits.id(i),"subject");
TokenStreamtokenStream=TokenSources.getTokenStream(termFreqVector);
Stringresult=highlighter.getBestFragment(tokenStream,doc.get("subject"));
System.out.println(doc.get("title"));
System.out.println(result);
}
}

public void searcher() throws IOException{ IndexReader reader = IndexReader.open(directory); IndexSearcher searcher = new IndexSearcher(directory); TermQuery query = new TermQuery(new Term("subject","java")); Hits hits = searcher.search(query); //高亮显示设置 SimpleHTMLFormatter simpleHTMLFormatter = new SimpleHTMLFormatter("<font color='red'>","</font>"); Highlighter highlighter =new Highlighter(simpleHTMLFormatter,new QueryScorer(query)); // 这个100是指定关键字字符串的context的长度，你可以自己设定，因为不可能返回整篇正文内容 highlighter.setTextFragmenter(new SimpleFragmenter(100)); for(int i = 0; i < hits.length(); i++){ Document doc = hits.doc(i); TermPositionVector termFreqVector = (TermPositionVector)reader.getTermFreqVector(hits.id(i), "subject"); TokenStream tokenStream = TokenSources.getTokenStream(termFreqVector); String result = highlighter.getBestFragment(tokenStream, doc.get("subject")); System.out.println(doc.get("title")); System.out.println(result); } }

从别处转的发现reader.getTermFreqVector(hits.id(i),"subject")总是返回空值

iteye_9380

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Lucene增加高亮显示后结果更高明显

Lucene增加高亮显示后结果更高明显了,但是返回结果的速度比较慢.原因是Lucene做每一篇文档的相关关键词的高亮显示时,在运行时执行了很多遍的分词操作,降低了性能.TermVector保存Token.getPositionIncrement() 和Token.startOffset() 以及Token.endOffset() 信息。利用Lucene中新增加的Token信息的保存结果以后，就...
复制链接

扫一扫