Lucene的学习第二篇——Lucene的流程与构建文档对象

最新推荐文章于 2022-02-23 17:54:30 发布

码上见高低

最新推荐文章于 2022-02-23 17:54:30 发布

阅读量1.1k

点赞数 2

分类专栏： lucene /slor 文章标签： lucene

本文链接：https://blog.csdn.net/m15517986455/article/details/78966707

版权

lucene /slor 专栏收录该内容

16 篇文章 2 订阅

订阅专栏

既然Lucene是实现全文检索，那么明白以下几个问题，
1. Lucene是什么？
2. Lucene实现全文检索的流程？
3. 索引到底是如何创建的？(Indexing)
4. 索引里面存放的又是什么东西？
5. 搜索的的时候又是如何去查找索引的？(Search)
这5个问题搞明白了，那么lucene就算入门了。
1：lucene是什么？
Lucene是一堆jar包，
2：lucene的实现全文检索的流程：（网上搜的）
这里写图片描述

其实就两大流程：
1. 绿色表示创建索引过程，包括：
采集数据创建索引（保存到索引库）

红色表示查询索引过程，包括：
入口提交查询请求（查询关键字）执行查询（从索引库搜索）

采集数据：
从互联网上、数据库、文件系统中等获取需要搜索的原始信息，如何采集数据？
1、互联网上的网页：可以使用爬虫获取数据。
2、数据库中的数据：可以直接连接数据库用SQL查询数据。
3、文件系统中的文件：可以通过I/O操作读取文件的内容。
建立索引：（这是最关键的步骤也是最抽象，最难理解的，采用场景1说明）
创建索引的步骤：
 获取文档（IO）
 创建文档对象
 分析文档（拆词）（使用分词器）创建索引
 扔进索引库

为了更好的理解这个步骤：
需要明白一个问题，索引库里是什么东西？
看流程图。用户根据索引查询，得到的是返回的结果。类比词典，那么索引库就是一个词典。
也就说，索引库中，既有索引，并且又有原始文档。
全文检索的内容是索引库中的内容，并没有去原始文档总找。而这个内容使我们在建立索引库的时候，将内容完完全全的复制到了索引库（理解成复制）
记住：
扔进索引库的是一个文档对象！，这个文档对象扔进索引库的时候，自动创建了索引!
文档对象是什么？（抽象）
这个文档对象就是我们构建的，一个world文件就是一个文档对象
文档对象由域组成(Field)
这里写图片描述

这里写图片描述

域field：就是描述这个对象的属性。好比描述对象的字段（但是完全不一样）；
好比描述这个world的大小，内容，长度，，，都是一个域。
1. 每个文档对象中包括多个Field（域），域只有两个属性：域名（name）和域值（value）。一个对象相当于数据库表的一条记录，一个Field相当于表中的一个字段
2. 不同的对象可以有不同的Field，同一个对象可以有相同的Field（域名和域值都相同）（跟数据库字段完全不一样）