技术交流之lucene

最新推荐文章于 2014-08-22 11:37:37 发布

liuwei063608

最新推荐文章于 2014-08-22 11:37:37 发布

阅读量1k

点赞数 1

本文链接：https://blog.csdn.net/liuwei063608/article/details/8571782

版权

java 专栏收录该内容

65 篇文章 0 订阅

订阅专栏

今天技术交流学习了lucene，总结一下吧

1. Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包，不是一个完整的搜索应用，而是一个代码库和API，可以很方便地为应用提供搜索功能。

2.全文检索（Full-Text Retrieval）是指以文本作为检索对象，找出含有指定词汇的文本。全面、准确和快速是衡量全文检索系统的关键指标。

全文检索处理的内容：1 只处理文本 2 不处理语义3 搜索时英文不区分大小写 4 结果列表有相关度排序

3 .Lucene 最重要的三点

1：分词器（Analyzer）

2：建立索引

3：从索引库中搜索文件

4.先把要检索的资源集合放到本地，并使用某种特定的结构存储，称为索引，这个索引的集合称为索引库。由于索引库的结构是按照专门为快速查询设计的，所以查询的速度非常快。我们每次搜索都是在本地的索引库中进行，如图

5. 索引库是一个目录，里面是一些二进制文件，就如同数据库，所有的数据也是以文件的形式存在文件系统中的。我们不能直接操作这些二进制文件，而是使用Lucene提供的API完成相应的操作，就像操作数据库应使用SQL语句一样。

6.对索引库的操作可以分为两种：管理与查询。管理索引库使用IndexWriter，从索引库中查询使用IndexSearcher。Lucene的数据结构为Document与Field。Document代表一条数据，Field代表数据中的一个属性。一个Document中有多个Field，Field的值为String型，因为Lucene只处理文本。

7. 我们只需要把在我们的程序中的对象转成Document，就可以交给Lucene管理了，搜索的结果中的数据列表也是Document的集合.如图

8.个词汇表（目录），在词汇表中的每一个条记录都是类似于“词à所在文档的编号列表”的结构，记录了每一个出现过的单词，和单词出现的地方（哪些文档）。查询时先查词汇表，得到文档的编号，再直接取出相应的文档。

9. 把数据转成指定格式放到索引库中的操作叫做建立索引。建立索引时，在把数据存到索引库后，再更新词汇表。进行搜索时，先从检索词汇表开始，然后找到相对应的文档。如果查询中仅包含一个关键词，则在词汇表中找到该单词，并取出他对应的文档就可以了。如果查询中包含多个关键词，则需要将各个单词检索出的记录进行合并再取出相应的文档记录。如图

10.在建立索引时，先要把文档存到索引库中，还要更新词汇表。如图

11. 我们做的操作：把数据对象转成相应的Document，其中的属性转为Field。调用IndexWriter的addDocument(doc)，把Document添加到索引库中。

12. Lucene做的操作：把文档存到索引库中，并自动指定一个内部编号，用来唯一标识这条数据。内部编号类似于这条数据的地址，在索引库内部的数据进行调整后，这个编号就可能会改变，同时词汇表中引用的编号也会做相应改变，以保证正确。但我们如果在外面引用了这个编号，前后两次去取，得到的可能不是同一个文档！所以内部编号最好只在内部用。

13.Lucene做的操作：更新词汇表。把文本中的词找出并放到词汇表中，建立与文档的对应关系。要把哪些词放到词汇表中呢，也就是文本中包含哪些词呢？这就用到了一个叫做Analyzer（分词器）如图