java lucene 搜索案例_Java Lucene 搜索入门

最新推荐文章于 2021-02-24 05:02:11 发布

浮梦绝离殇

最新推荐文章于 2021-02-24 05:02:11 发布

阅读量166

点赞数

文章标签： java lucene 搜索案例

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_33331978/article/details/114198422

版权

lucene执行的两个主要步骤如下

1、建立索引的执行过程

在建立索引时，先要把文档存到索引库中，还要更新词汇表。

操作步骤如下：

(1)、把数据对象转换成相应的Document，其中的属性转为Field；

(2)、调用工具IndexWriter的addDocument(doc)，把Document添加到索引库中；

(3)、Lucene做的操作：

把文档存到索引库中，并自动指定一个内部编号，用来唯一标识这个条数据；内部编号类似与这条数据的地址，在索引库内部的数据进行调整后，这个编号就可能会改变，同时词汇表中的引用的编号也会做相应的改变，以保证正确。

更新词汇表。把文本中的词找出来放到词汇表中，简历与文档的对应关系。要把那些词放到词汇表中呢？这就用到一个叫Analyzer(分词器)的工具。他的作用是把一段文本中的词按照规则取出所包含的所有词。对应的是Analyzer类，这是一个抽象类，切分词的具体规则是由其子类实现。

在把对象的属性转化为 Field时，相关代码为：

doc.add(new Field(“title”,article.getTitle(), Store.YES, Index.Analyzed))

其中第三个参数的意思为

Store.NO 不存储属性的值；

Store.YES 存储属性的值

第四个参数

Index.NO 不建立索引

Index.ANALYZED 分词后建立索引

Index.NOT_ANALYZED 不分词，把整个内容作为一个词建立索引

Store是影响搜索出的结构是否有指定属性的原始内容。

Index是影响是否可以从这个属性中查询，或者是查询时可以查其中的某些词，还是要把整个内容作为一个词进行查询。

2、从索引库中搜索的执行过程(QueryParse、TopDocs、ScoreDoc)

在进行搜索时，先在词汇表中查找，得到符合条件的文档编号列表。再根据文档编号真正的取数据(Document)

操作步骤如下：

(1)、把要查询字符串转为Query对象。这就像在Hiberante总是用HQL查询时，也要先调用Session.createQuery(hql)转成Hibernate的Query对象一样。把查询字符串转换成Query是使用QueryParser，或者使用MultiFieldQueryParser。查询字符串也要先经过Analyzer(分词器)。要求检索时使用Analyzer要与监理索引使用的Analzyer要一致，否则可能搜索不出正确的结果。

(2)、调用IndexSearcher.search()，进行查询，得到结果。此方法返回未TopDocs，是包含结果的多个信息的一个对象。其中有totalHits代表记录数，ScoreDoc的数组。ScoreDoc是代表一个结果的相关度得分与文档编号等信息的对象。

(3)、取出要用到的数据列表。调用IndexSearcher.doc(scoreDoc.doc)以取出指定编号对应的Document数据，在分页时要用到：一次只取一页的数据。

浮梦绝离殇

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
java lucene 搜索案例_Java Lucene 搜索入门

lucene执行的两个主要步骤如下1、建立索引的执行过程在建立索引时，先要把文档存到索引库中，还要更新词汇表。操作步骤如下：(1)、把数据对象转换成相应的Document，其中的属性转为Field；(2)、调用工具IndexWriter的addDocument(doc)，把Document添加到索引库中；(3)、Lucene做的操作：把文档存到索引库中，并自动指定一个内部编号，用来唯一标识这个条数...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。