Lucene

最新推荐文章于 2022-10-19 09:51:23 发布

qq_34507736

最新推荐文章于 2022-10-19 09:51:23 发布

阅读量229

点赞数

分类专栏：其他

本文链接：https://blog.csdn.net/qq_34507736/article/details/54758411

版权

16 篇文章 0 订阅

订阅专栏

Lucene是一个牛叉的全文检索引擎工具包。

创建索引 ->检索索引
创建索引过程：数据（Document） -> 分词技术（Analyzer） -> 索引创建（IndexWriter）
索引检索过程：搜索关键字（Keywords） -> 分词技术（Analyzer） -> 检索索引（search） -> 返回结果

索引（Index） -> 段（Segment） -> 文档（Document） -> 域（Field） -> 词（Term）

W=tf * log(n/df);

W：权重
tf：词元在文档中出现的次数
n：文档总数
df：多少篇文档包含此词元
这里写图片描述

把文档表示成权重的向量，建立空间向量模型。分为若干个维度，每一个维度代表一个词元。向量的夹角代表文章的相似度

为了对文档进行索引，Lucene 提供了五个基础的类，他们分别是 Document, Field, IndexWriter, Analyzer, Directory。下面我们分别介绍一下这五个类的用途：

Document	Document 是用来描述文档的，这里的文档可以指一个 HTML 页面，一封电子邮件，或者是一个文本文件。一个 Document 对象由多个 Field 对象组成的。可以把一个 Document 对象想象成数据库中的一个记录，而每个 Field 对象就是记录的一个字段。
Field	Field 对象是用来描述一个文档的某个属性的，比如一封电子邮件的标题和内容可以用两个 Field 对象分别描述。
Analyzer	在一个文档被索引之前，首先需要对文档内容进行分词处理，这部分工作就是由 Analyzer 来做的。Analyzer 类是一个抽象类，它有多个实现。针对不同的语言和应用需要选择适合的 Analyzer。Analyzer 把分词后的内容交给 IndexWriter 来建立索引。
IndexWriter	IndexWriter 是 Lucene 用来创建索引的一个核心的类，他的作用是把一个个的 Document 对象加到索引中来。
Directory	这个类代表了 Lucene 的索引的存储的位置，这是一个抽象类，它目前有两个实现，第一个是 FSDirectory，它表示一个存储在文件系统中的索引的位置。第二个是 RAMDirectory，它表示一个存储在内存当中的索引的位置。