理解Lucene索引过程

理解索引过程

Lucene索引过程分为三个主要的阶段:将数据转换为文本、分析文本、将分析过的文本保存到索引库中


1 转换成文本

在索引之前,必须将数据转换为Lucene可以处理的格式——纯文本字符流。

2 分析

完成了针对待索引数据的预处理,并创建了带有若干个域的Document对象,就可以调用IndexWriter的addDocument(Document)方法,将数据传递给Lucene来进行索引操作。

对数据进行索引处理时,Lucene会首先分析数据使之更适合被索引。分析数据时,先将文本数据切分成一些词汇单元tokens,然后对它们进行一些可选操作。

3 将分析后的数据写入索引

Lucene将输入数据以倒排索引的数据结构进行存储。(这种data structure可以迅速回答诸如“哪些文档包含词汇x?”一类的问题)


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值