Lucene 使用（一）简介

最新推荐文章于 2024-06-25 10:33:00 发布

rgtjf

最新推荐文章于 2024-06-25 10:33:00 发布

阅读量561

点赞数

分类专栏：学习文章标签： lucene java nlp

本文链接：https://blog.csdn.net/rgtjf/article/details/45226995

版权

学习专栏收录该内容

15 篇文章 0 订阅

订阅专栏

Reference

Lucene简介

什么是Lucene

全文搜索框架，建立Index，搜索Document

Lucene可以做什么

lucene提供的服务实际包含两部分：一入一出。所谓入是写入，即将你提供的源（本质是字符串）写入索引或者将其从索引中删除；所谓出是读出，即向用户提供全文搜索服务，让用户可以通过关键词定位源。

写入流程

源字符串首先经过analyzer处理，包括：分词，分成一个个单词；去除stopword（可选）。
将源中需要的信息加入Document的各个Field中，并把需要索引的Field索引起来，把需要存储的Field存储起来。
将索引写入存储器，存储器可以是内存或磁盘。

读出流程

用户提供搜索关键词，经过analyzer处理。
对处理后的关键词搜索索引找出对应的Document。
用户根据需要从找到的Document中提取需要的Field。

基础概念

analyzer

分析器
作用：一个字符串按某种规则划分成一个个词语，并去除其中的无效词语
分词的目的：按语义划分

term、tocken、document、field

document：文本文件、字符串或者数据库表的一条记录等等
Field：
- 一个document可以包含多个信息域，例如一篇文章可以包含“标题”、“正文”、“最后修改时间”等信息域，这些信息域就是通过Field在document中存储的
- Field有两个属性可选：存储和索引。通过存储属性你可以控制是否对这个Field进行存储；通过索引属性你可以控制是否对该Field进行索引。这看起来似乎有些废话，事实上对这两个属性的正确组合很重要，下面举例说明。
- 还是以刚才的文章为例子，
  1. 我们需要对标题和正文进行全文搜索，所以我们要把索引属性设置为真，同时我们希望能直接从搜索结果中提取文章标题，所以我们把标题域的存储属性设置为真；
  2. 但是由于正文域太大了，我们为了缩小索引文件大小，将正文域的存储属性设置为假，当需要时再直接读取文件；
  3. 我们只是希望能从搜索解果中提取最后修改时间，不需要对它进行搜索，所以我们把最后修改时间域的存储属性设置为真，索引属性设置为假
上面的三个域涵盖了两个属性的三种组合，还有一种全为假的没有用到，事实上Field不允许你那么设置，因为既不存储又不索引的域是没有意义的。
term: term是搜索的最小单位，它表示文档的一个词语，term由两部分组成：它表示的词语和这个词语所出现的field。
tocken: tocken是term的一次出现，它包含trem文本和相应的起止偏移，以及一个类型字符串。一句话中可以出现多次相同的词语，它们都用同一个term表示，但是用不同的tocken，每个tocken标记该词语出现的地方。
segment: 添加索引时并不是每个document都马上添加到同一个索引文件，它们首先被写入到不同的小文件，然后再合并成一个大索引文件，这里每个小文件都是一个segment。

模块分析

org.apache.lucene.demo

IndexFiles.java: 创建索引
SearchFiles.java: 根据索引寻找文件

org.apache.lucene.analysis

分列? 分词? 分析!（Parsing？ Tokenizer？Analysis）
Lucene 只接受纯文本（plain text input）.
字符串（Reader） -> 单词（tokens）

示例代码

建立索引

IndexWriter writer = new IndexWriter(“/data/index/”, new StandardAnalyzer(), true);
Document doc = new Document();
doc.add(new Field("title", "lucene introduction", Field.Store.YES, Field.Index.TOKENIZED));
doc.add(new Field("content", "lucene works well", Field.Store.YES, Field.Index.TOKENIZED));
writer.addDocument(doc);
writer.optimize();
writer.close();

下面我们分析一下这段代码。

首先我们创建了一个writer，并指定存放索引的目录为“/data/index”，使用的分析器为StandardAnalyzer，第三个参数说明如果已经有索引文件在索引目录下，我们将覆盖它们。
然后我们新建一个document。我们向document添加一个field，名字是“title”，内容是“lucene introduction”，对它进行存储并索引。再添加一个名字是“content”的field，内容是“lucene works well”，也是存储并索引。
然后我们将这个文档添加到索引中，如果有多个文档，可以重复上面的操作，创建document并添加。
添加完所有document，我们对索引进行优化，优化主要是将多个segment合并到一个，有利于提高索引速度。
随后将writer关闭，这点很重要。

索引文本文件

Field field = new Field("content", new FileReader(file));

More….

下一节将进行示例的代码编写

rgtjf

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录