Lucene
文章平均质量分 76
Dream6000
这个作者很懒,什么都没留下…
展开
-
Lucene倒排索引原理[转]
Lucene是一个高性能的java全文检索工具包,它使用的是倒排文件索引结构。该结构及相应的生成算法如下:0)设有两篇文章1和2文章1的内容为:Tom lives in Guangzhou,I live in Guangzhou too.文章2的内容为:He once lived in Shanghai.1)由于lucene是基于关键词索引和查询的,首先我们要取得这两转载 2007-08-01 16:08:00 · 905 阅读 · 0 评论 -
[转]Lucene 中文分词的 highlight 显示
Lucene 中文分词的 highlight 显示 1 、问题的来源 增加分词以后结果的准确度提高了,但是用户反映返回结果的速度很慢。原因是, Lucene 做每一篇文档的相关关键词的高亮显示时,在运行时执行了很多遍的分词操作。这样降低了性能。 2 、解决方法 在 Lucene1.4.3 版本中的一个新功能可以解决这个问题。 Term Vector 现在支持保存 Tok转载 2007-08-01 16:25:00 · 957 阅读 · 0 评论 -
Lucene中的基本概念
本文定义了Lucene(版本1.3)用到的索引文件的格式。 Jakarta Lucene是用Java写成的,同时有很多团体正在默默的用其他的程序语言来改写它。如果这些新的版本想和Jakarta Lucene兼容,就需要一个与具体语言无关的Lucene索引文件格式。本文正是试图提供一个完整的与语言无关的Jakarta Lucene 1.3索引文件格式的规格定义。随着Lucene不断发转载 2007-08-01 16:11:00 · 831 阅读 · 0 评论