【全文检索_02】Lucene 入门案例

1.1 简介

1.1.1 概述

  Lucene 是 apache 软体基金会发布的一个开放原始码的全文检索引擎工具包,由资深全文检索专家 Doug Cutting 所撰写,它是一个全文检索引擎的架构,提供了完整的建立索引和查询索引,以及部分文字分析的引擎,Lucene 的目的是为软体开发人员提供一个简单易用的工具包,以方便在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎,Lucene 在全文检索领域是一个经典的祖先,现在很多检索引擎都是在其基础上建立的,思想是相通的。 Lucene 是根据关健字来搜寻的文字搜寻工具,只能在某个网站内部搜寻文字内容,不能跨网站搜寻。

在这里插入图片描述

1.1.2 索引和搜索过程

  索引是现代搜寻引擎的核心,建立索引的过程就是把源资料处理成非常方便查询的索引档案的过程。为什么索引这么重要呢,试想你现在要在大量的文件中搜索含有某个关键词的文件,那么如果不建立索引的话你就需要把这些文件顺序的读入记忆体,然后检查这个文章中是不是含有要查询的关键词,这样的话就会耗费非常多的时间,想想搜寻引擎可是在毫秒级的时间内查找出要搜寻的结果的。这就是由于建立了索引的原因,你可以把索引想象成这样一种资料结构,他能够使你快速的随机访问储存在索引中的关键词,进而找到该关键词所关联的文件。 Lucene 采用的是一种称为倒排索引(inverted index)的机制。倒排索引就是说我们维护了一个词 / 短语表,对于这个表中的每个词 / 短语,都有一个连结串列描述了有哪些文件包含了这个词 / 短语。这样在使用者输入查询条件的时候,就能非常快的得到搜寻结果。

在这里插入图片描述


1.1.3 创建索引库

☞ 获得原始文档

  原始文档是指要索引和搜索的内容。原始内容包括互联网上的网页、数据库中的数据、磁盘上的文件等。从互联网上、数据库、文件系统中等获取需要搜索的原始信息,这个过程就是信息采集,信息采集的目的是为了对原始内容进行索引。

在这里插入图片描述


☞ 创建文档对象

  获取原始内容的目的是为了索引,在索引前需要将原始内容创建成文档(Document),文档中包括一个一个的域(Field),域中存储内容。这里我们可以将磁盘上的一个文件当成一个 document,Document 中包括一些 Field(file_name 文件名称、file_path 文件路径、file_size 文件大小、file_content 文件内容)。每个 Document 可以有多个 Field,不同的 Document 可以有不同的 Field,同一个 Document 可以有相同的 Field(域名和域值都相同),每个文档都有一个唯一的编号,就是文档 id。

在这里插入图片描述

☞ 分析文档

  将原始内容创建为包含域(Field)的文档(document),需要再对域中的内容进行分析,分析的过程是经过对原始文档提取单词、将字母转为小写、去除标点符号、去除停用词等过程生成最终的语汇单元,可以将语汇单元理解为一个一个的单词。每个单词叫做一个 Term,不同的域中拆分出来的相同的单词是不同的 term。term 中包含两部分一部分是文档的域名,另一部分是单词的内容。例如:文件名中包含 apache 和文件内容中包含的 apache 是不同的 term。

在这里插入图片描述


☞ 创建索引

  对所有文档分析得出的语汇单元进行索引,索引的目的是为了搜索,最终要实现只搜索被索引的语汇单元从而找到Document(文档)。注意:创建索引是对语汇单元索引,通过词语找文档,这种索引的结构叫倒排索引结构。倒排索引结构是根据内容、词语找文档,如下图:

在这里插入图片描述


1.1.4 查询索引库

☞ 用户查询接口

  全文检索系统提供用户搜索的界面供用户提交搜索的关键字,搜索完成展示搜索结果。注意 Lucene 不提供用户搜索界面的功能,需要根据自己的需求开发搜索界面。
在这里插入图片描述

☞ 创建查询

  用户输入查询关键字执行搜索之前需要先构建一个查询对象,查询对象中可以指定查询要搜索的 Field 文档域、查询关键字等,查询对象会生成具体的查询语法,例如:语法 fileName:lucene 表示要搜索 Field 域的内容为“lucene”的文档


☞ 执行查询

  根据查询语法在倒排索引词典表中分别找出对应搜索词的索引,从而找到索引所链接的文档链表。比如搜索语法为 fileName:lucene 表示搜索出 fileName 域中包含 Lucene 的文档。搜索过程就是在索引上查找域为 fileName,并且关键字为 Lucene 的 term,并根据 term 找到文档 id 列表。


☞ 渲染结果

  以一个友好的界面将查询结果展示给用户,用户根据搜索结果找自己想要的信息,为了帮助用户很快找到自己的结果,提供了很多展示的效果,比如搜索结果中将关键字高亮显示,百度提供的快照等。

在这里插入图片描述





1.2 配置开发环境

1.2.1 下载 Lucene

官网 下载压缩包并解压
在这里插入图片描述


1.2.2 使用的 jar 包

<!-- lucene 核心包,在 lucene-8.7.0\core 下 -->
<dependency>
    <groupId>org.apache.lucene</groupId>
    <artifactId>lucene-core</artifactId>
    <version>7.2.1</version>
</dependency>
<!-- 一般分词器,适用于英文分词,在 lucene-8.7.0\analysis\common 下 -->
<dependency>
    <groupId>org.apache.lucene</groupId>
    <artifactId>lucene-analyzers-common</artifactId>
    <version>7.2.1</version>
</dependency>

1.2.3 核心包

核心包作用
org.apache.lucene.document这个包提供了一些为封装要索引的文件所需要的类,比如 Document,Field。这样,每一个文件最终被封装成了一个 Document。
org.apache.lucene.analysis这个包主要功能是对文件进行分词,因为文件在建立索引之前必须要进行分词,所以这个包的作用可以看成是为建立索引做准备工作。
org.apache.lucene.index这个包提供了一些类来协助建立索引以及对建立好的索引进行更新。这里面有两个基础的类:IndexWriter 和 IndexReader,其中 IndexWriter 是用来建立索引并新增文件到索引中的,IndexReader 是用来删除索引中的文件的。
org.apache.lucene.search这个包提供了对在建立好的索引上进行搜寻所需要的类。比如 IndexSearcher 和 Hits, IndexSearcher 定义了在指定的索引上进行搜寻的方法,Hits 用来储存搜寻得到的结果





1.3 入门案例

1.3.1 创建索引

/**
 * @author Demo_Null
 * @version 1.0
 * @date 2021/1/21
 * @desc Lucene 入门案例, 创建索引
 */
@SpringBootTest
public class LuceneDemo {

    @Test
    public void create() throws IOException {
        // 1. 指定索引库位置
        // 1.1 保存到内存
        // Directory directory = new RAMDirectory()

        // 1.2 保存到本地
        Directory directory = FSDirectory.open(new File("C:\\Users\\softw\\Desktop\\temp").toPath());

        // 2. 创建 IndexWriterConfig 对象
        IndexWriterConfig indexWriterConfig = new IndexWriterConfig();

        // 3. 创建 IndexWriter 对象
        IndexWriter indexWriter = new IndexWriter(directory, indexWriterConfig);

        // 4. 获取原始文档信息
        File file = new File("C:\\Users\\softw\\Desktop\\file\\双城记.txt");
        String name = file.getName();
        String path = file.getPath();
        // 使用 org.apache.commons.io.FileUtils 工具类读取信息
        String content = FileUtils.readFileToString(file, "GBK");
        long size = FileUtils.sizeOf(file);

        // 5. 创建 Field 域, 第一个参数:域的名称, 第二个参数:域的内容, 第三个参数:是否存储
        TextField fileNameField = new TextField("filename", name, Field.Store.YES);
        TextField filePathField = new TextField("path", path, Field.Store.YES);
        TextField fileContentField = new TextField("content", content, Field.Store.YES);
        TextField fileSizeField = new TextField("size", size + "", Field.Store.YES);

        // 6. 创建 Document 文档, 存入 Field 域
        Document document = new Document();
        document.add(fileNameField);
        document.add(filePathField);
        document.add(fileContentField);
        document.add(fileSizeField);

        // 7. 创建索引并写入索引库
        indexWriter.addDocument(document);

        // 8. 释放资源
        indexWriter.close();
    }
}

在这里插入图片描述

  执行完毕后,如上图所示在指定的索引库生成了一堆不认识的文件,我们需要找一个工具来查看,可以使用 Luke 查看我们刚才添加的索引。

在这里插入图片描述

1.3.2 查询索引

/**
 * @author Demo_Null
 * @version 1.0
 * @date 2021/1/21
 * @desc //TODO
 */
@SpringBootTest
public class CreateIndex {

    @Test
    public void search() throws IOException {
        // 1. 指定索引库
        Directory directory = FSDirectory.open(new File("C:\\Users\\softw\\Desktop\\temp").toPath());

        // 2. 创建 IndexReader 对象
        IndexReader indexReader = DirectoryReader.open(directory);

        // 3. 创建 IndexSearcher 对象
        IndexSearcher indexSearcher = new IndexSearcher(indexReader);

        // 4. 创建查询
        TermQuery termQuery = new TermQuery(new Term("content", "我"));

        // 5. 执行查询, 第一个参数是查询对象, 第二个参数是查询结果返回的最大值
        TopDocs search = indexSearcher.search(termQuery, 10);

        System.out.println("查询结果条数:" + search.totalHits);

        // 6. 遍历查询结果
        for (ScoreDoc scoreDoc : search.scoreDocs) {
            // 6.1 根据 id 获取 Document, scoreDoc.doc 属性就是 document 对象的 id
            Document doc = indexSearcher.doc(scoreDoc.doc);
            System.out.println("文件名:" + doc.get("filename"));
            System.out.println("文件路径:" + doc.get("path"));
            System.out.println("文件大小:" + doc.get("size"));
        }

        // 7. 释放资源
        indexReader.close();
    }
}

在这里插入图片描述



  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
使用Lucene实现对MySQL数据表的全文检索是一种可行的方案。Lucene是一套开源的全文检索和搜寻的程式库,它提供了一个简单但强大的应用程式接口,能够实现全文索引和搜寻的功能。在Java开发环境中,Lucene是一个成熟的免费开源工具,被广泛应用于信息检索领域。 全文检索是一种针对非结构化数据的检索方法,对于像磁盘上的文件、网站资源等非结构化数据,无法使用SQL语句进行查询,因此需要使用全文检索法。全文检索法将非结构化数据中的一部分信息提取出来进行组织,形成索引,然后根据索引快速定位到要查找的信息。Lucene可以实现全文检索的功能,它是Apache软件基金会支持和提供的工具包。 使用Lucene实现全文检索的流程如下: 1. 创建索引:首先获取要进行检索的文档,可以是磁盘文件或网站资源等,然后构建文档对象,包括多个域,如文件名称、文件路径、文件大小、文件内容等。接下来对文档进行分词,将分词结果创建为索引并添加到索引库中。 2. 索引搜索:创建查询对象,执行查询并渲染结果。在倒排索引词典表中查找对应搜索词的索引,然后找到索引所链接的文档。例如,搜索语法为"fileName:lucene"表示搜索文件名中包含Lucene的文档。 要使用Lucene实现全文检索,首先需要下载和配置Lucene。你可以从官方网站或其他可信的资源下载Lucene的安装包,并按照相应的指南进行配置。然后,你可以使用Lucene提供的API来实现全文检索功能,根据具体需求进行代码编写和调用。 总之,Lucene是一种强大的全文检索工具,可以帮助你在MySQL数据表中实现全文检索功能。你可以通过学习和使用Lucene的API来了解更多关于Lucene的功能和用法,并根据具体需求进行相应的实现。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* [【springboot微服务】Lucence实现Mysql全文检索](https://blog.csdn.net/zhangcongyi420/article/details/129940816)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *3* [【Lucene&Solr】Lucene实现全文检索](https://blog.csdn.net/qq_43705275/article/details/107229299)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值