lucene

最新推荐文章于 2020-07-08 20:02:17 发布

墓锦天

最新推荐文章于 2020-07-08 20:02:17 发布

阅读量109

点赞数

分类专栏： java 文章标签： lucene

本文链接：https://blog.csdn.net/policevos/article/details/97542871

版权

java 专栏收录该内容

40 篇文章 0 订阅

订阅专栏

lucene

全文检索
全文检索的应用场景
什么是Lucene
Lucene实现全文检索的流程
- 创建索引
- 查询索引
入门程序
分析器
索引库维护
索引库查询
补充

全文检索

数据的分类

1)结构化数据
	格式固定、长度固定、数据类型固定。
	例如数据库中的数据
2)非结构化数据
	word文档、pdf文档、邮件、html、txt
	格式不固定、长度不固定、数据类型不固定。

数据的查询

1）结构化数据的查询
	SQL语句，查询结构化数据的方法。简单、速度快。
2）非结构化数据的查询
	从文本文件中找出包含spring单词的文件。
	1、目测
	2、使用程序吧文档读取到内存中，然后匹配字符串。顺序扫描。
	3、把非结构化数据变成结构化数据
		先跟根据空格进行字符串拆分，得到一个单词列表，基于单词列表创建一个索引。
		然后查询索引，根据单词和文档的对应关系找到文档列表。这个过程叫做全文检索。

		索引：一个为了提高查询速度，创建某种数据结构的集合。

全文检索

先创建索引然后查询索引的过程叫做全文检索。
索引一次创建可以多次使用。表现为每次查询速度很快。

全文检索的应用场景

1、搜索引擎
百度、360搜索、谷歌、搜狗
2、站内搜索
论坛搜索、微博、文章搜索
3、电商搜索
淘宝搜索、京东搜索
4、只要是有搜索的地方就可以使用全文检索技术。

什么是Lucene

Lucene是一个基于Java开发全文检索工具包。

Lucene实现全文检索的流程

创建索引

获得文档
原始文档：要基于那些数据来进行搜索，那么这些数据就是原始文档。
搜索引擎：使用爬虫获得原始文档
站内搜索：数据库中的数据。
案例：直接使用io流读取磁盘上的文件。
构建文档对象
对应每个原始文档创建一个Document对象
每个document对象中包含多个域（field）
域中保存就是原始文档数据。
域的名称
域的值
每个文档都有一个唯一的编号，就是文档id
分析文档
就是分词的过程
1、根据空格进行字符串拆分，得到一个单词列表
2、把单词统一转换成小写。
3、去除标点符号
4、去除停用词
停用词：无意义的词
每个关键词都封装成一个Term对象中。
Term中包含两部分内容：
关键词所在的域
关键词本身
不同的域中拆分出来的相同的关键词是不同的Term。
创建索引
基于关键词列表创建一个索引。保存到索引库中。
索引库中：
索引
document对象
关键词和文档的对应关系
通过词语找文档，这种索引的结构叫倒排索引结构。

查询索引

用户查询接口
用户输入查询条件的地方
例如：百度的搜索框
把关键词封装成一个查询对象
要查询的域
要搜索的关键词
执行查询
根据要查询的关键词到对应的域上进行搜索。
找到关键词，根据关键词找到对应的文档
渲染结果
根据文档的id找到文档对象
对关键词进行高亮显示
分页处理
最终展示给用户看。

入门程序

1、创建索引
环境：
需要下载Lucene
http://lucene.apache.org/
最低要求jdk1.8
工程搭建：
创建一个java工程
添加jar：
lucene-analyzers-common-7.4.0.jar
lucene-core-7.4.0.jar
commons-io.jar

步骤：
	1、创建一个Director对象，指定索引库保存的位置。
	2、基于Directory对象创建一个IndexWriter对象
	3、读取磁盘上的文件，对应每个文件创建一个文档对象。
	4、向文档对象中添加域
	5、把文档对象写入索引库
	6、关闭indexwriter对象

2、使用luke查看索引库中的内容
3、查询索引库

	步骤：
		1、创建一个Director对象，指定索引库的位置
		2、创建一个IndexReader对象
		3、创建一个IndexSearcher对象，构造方法中的参数indexReader对象
		4、创建一个Query对象，TermQuery
		5、执行查询，得到一个TopDocs对象
		6、取查询结果的总记录数
		7、取文档列表
		8、打印文档中的内容
		9、关闭IndexReader对象

分析器

默认使用的数标准分析器StandardAnalyzer

1、查看分析器的分析效果
使用Analyzer对象的tokenStream方法返回一个TokenStream对象。词对象中包含了最终分词结果。

	实现步骤：
		1）创建一个Analyzer对象，StandardAnalyzer对象
		2）使用分析器对象的tokenStream方法获得一个TokenStream对象
		3）向TokenStream对象中设置一个引用，相当于数一个指针
		4）调用TokenStream对象的rest方法。如果不调用抛异常
		5）使用while循环遍历TokenStream对象
		6）关闭TokenStream对象

2、IKAnalyze的使用方法

	1）把IKAnalyzer的jar包添加到工程中
	2）把配置文件和扩展词典添加到工程的classpath下
	注意：扩展词典严禁使用windows记事本编辑保证扩展词典的编码格式是utf-8
	扩展词典：添加一些新词
	停用词词典：无意义的词或者是敏感词汇

索引库维护

1、添加文档
2、删除文档

	1）删除全部
	2）根据查询、关键词删除文档

3、修改文档
修改的原理是先删除后添加

索引库查询

1、使用Query的子类
1）TermQuery
根据关键词进行查询。
需要指定要查询的域及要查询的关键词
2）RangeQuery
范围查询
2、使用QueryPaser进行查询
可以对要查询的内容先分词，然后基于分词的结果进行查询。
添加一个jar包
lucene-queryparser-7.4.0.jar

补充

索引过程的核心类

·IndexWriter
·Directory
·Analyzer
·Document
·Field

①IndexWriter
索引过程的核心组件。这个类负责创建新索引或者打开已有索引，以及向索引中添加、删除或更新被索引文档的信息。可以把IndexWriter看作这样一个对象：它为你提供针对索引文件的写入操作，但不能用于读取或搜索索引。IndexWriter需要开辟一定空间来存储索引，该功能可以由Directory完成。

②Directory
该类描述了Lucene索引的存放位置。它是一个抽象类，它的子类负责具体指定索引的存储路径。用FSDirectory.open方法来获取真实文件在文件系统的存储路径，然后将它们一次传递给IndexWriter类构造方法。IndexWriter不能直接索引文本，这需要先由Analyzer将文本分割成独立的单词才行。

③Analyzer
文本文件在被索引之前，需要经过Analyzer（分析器）处理。Analyzer是由IndexWriter的构造方法来指定的，它负责从被索引文本文件中提取语汇单元，并提出剩下的无用信息。如果被索引内容不是纯文本文件，那就需要先将其转换为文本文档。对于要将Lucene集成到应用程序的开发人员来说，选择什么样Analyzer是程序设计中非常关键的一步。分析器的分析对象为文档，该文档包含一些分离的能被索引的域。

④Document
Document对象代表一些域（Field）的集合。文档的域代表文档或者文档相关的一些元数据。元数据（如作者、标题、主题和修改日期等）都作为文档的不同域单独存储并被索引。Document对象的结构比较简单，为一个包含多个Filed对象容器；Field是指包含能被索引的文本内容的类。

⑤Field
索引中的每个文档都包含一个或多个不同命名的域，这些域包含在Field类中。每个域都有一个域名和对应的域值，以及一组选项来精确控制Lucene索引操作各个域值。

①IndexSearcher
该类用于搜索由IndexWriter类创建的索引，它是连接索引的中心环节。可以将IndexSearcher类看作是一个以只读方式打开索引的类。它需要利用Directory实例来掌控前期创建的索引，然后才能提供大量的搜索方法。

②Term
Term对象是搜索功能的基本单元。Term对象包含一对字符串元素：域名和单词（或域名文本值）。

③Query
包含了一些非常有用的方法，TermQuery是它的一个子类。

④TermQuery
该类提供最基本的查询，用来匹配指定域中包含特定项的文档。

⑤TopDocs
该类是一个简单的指针容器，指针一般指向前N个排名的搜索结果，搜索结果即匹配查询条件的文档。

墓锦天

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
lucene

lucene全文检索数据的分类数据的查询全文检索全文检索的应用场景什么是LuceneLucene实现全文检索的流程创建索引查询索引入门程序分析器索引库维护索引库查询补充全文检索数据的分类1)结构化数据格式固定、长度固定、数据类型固定。例如数据库中的数据2)非结构化数据 word文档、pdf文档、邮件、html、txt 格式不固定、长度不固定、数据类型不固定。数据的查询1）...
复制链接

扫一扫