定制Lucene的一点想法

 

Lucene是一个很好的开源全文索引工具,我觉得作为一个追求高效的专门应用还是有可改进的空间,简单了解了Lucene的一些索引机制之后,有了一些粗浅的想法,如有错误请不吝指出。

 

1)首先专门的应用一般要把Index Servers和doc Servers分开,所以像Lucene中保存词的偏移量和位置,还有可能要考虑的词的特征(锚文本、加粗等)信息以及Field的内容完全可以放在doc Servers中,Index Servers中可以仅仅保存倒排prx文件和tii及tis配合使用,这样可以减少索引体积。

 

2)Lucene中包括大量的正向信息segment->field->term,在Lucene中保存为fnm、fdx、fdt、tvx、tvd、tvf文件。我觉得lucene中Field的引进使得Lucene有更加广泛的使用场合,方便了程序员在各种各样的情况下使用Lucene提供服务。我觉得如果仅仅做一方面的应用,如仅仅对网页进行检索,那么究竟要分几个Field,每个Field是否压缩,是否使用归一化等等这些内容在编程中应该是默认的,没必要在检索时通过读和Field相关的文件来确定这些信息。Lucene中的fdt甚至保存了要索引的值,也就是说如果你要索引的Field中有abcdefgasdfasldkfjaasdjfk,好的,它被存在fdt文件中。这些显然是没有必要的,因此我觉得在专门的应用中可以去掉这些Field相关文件的保存。

 

突然想到这些没什么组织,随手记录下来。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值