lucene

全文检索

数据的分类

1)结构化数据
	格式固定、长度固定、数据类型固定。
	例如数据库中的数据
2)非结构化数据
	word文档、pdf文档、邮件、html、txt
	格式不固定、长度不固定、数据类型不固定。

数据的查询

1)结构化数据的查询
	SQL语句,查询结构化数据的方法。简单、速度快。
2)非结构化数据的查询
	从文本文件中找出包含spring单词的文件。
	1、目测
	2、使用程序吧文档读取到内存中,然后匹配字符串。顺序扫描。
	3、把非结构化数据变成结构化数据
		先跟根据空格进行字符串拆分,得到一个单词列表,基于单词列表创建一个索引。
		然后查询索引,根据单词和文档的对应关系找到文档列表。这个过程叫做全文检索。

		索引:一个为了提高查询速度,创建某种数据结构的集合。

全文检索

先创建索引然后查询索引的过程叫做全文检索。
索引一次创建可以多次使用。表现为每次查询速度很快。

全文检索的应用场景

1、搜索引擎
百度、360搜索、谷歌、搜狗
2、站内搜索
论坛搜索、微博、文章搜索
3、电商搜索
淘宝搜索、京东搜索
4、只要是有搜索的地方就可以使用全文检索技术。

什么是Lucene

Lucene是一个基于Java开发全文检索工具包。

Lucene实现全文检索的流程

创建索引

  • 获得文档
    原始文档:要基于那些数据来进行搜索,那么这些数据就是原始文档。
    搜索引擎:使用爬虫获得原始文档
    站内搜索:数据库中的数据。
    案例:直接使用io流读取磁盘上的文件。
  • 构建文档对象
    对应每个原始文档创建一个Document对象
    每个document对象中包含多个域(field)
    域中保存就是原始文档数据。
    域的名称
    域的值
    每个文档都有一个唯一的编号,就是文档id
  • 分析文档
    就是分词的过程
    1、根据空格进行字符串拆分,得到一个单词列表
    2、把单词统一转换成小写。
    3、去除标点符号
    4、去除停用词
    停用词:无意义的词
    每个关键词都封装成一个Term对象中。
    Term中包含两部分内容:
    关键词所在的域
    关键词本身
    不同的域中拆分出来的相同的关键词是不同的Term。
  • 创建索引
    基于关键词列表创建一个索引。保存到索引库中。
    索引库中:
    索引
    document对象
    关键词和文档的对应关系
    通过词语找文档,这种索引的结构叫倒排索引结构。

查询索引

  • 用户查询接口
    用户输入查询条件的地方
    例如:百度的搜索框
  • 把关键词封装成一个查询对象
    要查询的域
    要搜索的关键词
  • 执行查询
    根据要查询的关键词到对应的域上进行搜索。
    找到关键词,根据关键词找到 对应的文档
  • 渲染结果
    根据文档的id找到文档对象
    对关键词进行高亮显示
    分页处理
    最终展示给用户看。

入门程序

1、创建索引
环境:
需要下载Lucene
http://lucene.apache.org/
最低要求jdk1.8
工程搭建:
创建一个java工程
添加jar:
lucene-analyzers-common-7.4.0.jar
lucene-core-7.4.0.jar
commons-io.jar

步骤:
	1、创建一个Director对象,指定索引库保存的位置。
	2、基于Directory对象创建一个IndexWriter对象
	3、读取磁盘上的文件,对应每个文件创建一个文档对象。
	4、向文档对象中添加域
	5、把文档对象写入索引库
	6、关闭indexwriter对象

2、使用luke查看索引库中的内容
3、查询索引库

	步骤:
		1、创建一个Director对象,指定索引库的位置
		2、创建一个IndexReader对象
		3、创建一个IndexSearcher对象,构造方法中的参数indexReader对象
		4、创建一个Query对象,TermQuery
		5、执行查询,得到一个TopDocs对象
		6、取查询结果的总记录数
		7、取文档列表
		8、打印文档中的内容
		9、关闭IndexReader对象

分析器

默认使用的数标准分析器StandardAnalyzer

1、查看分析器的分析效果
使用Analyzer对象的tokenStream方法返回一个TokenStream对象。词对象中包含了最终分词结果。

	实现步骤:
		1)创建一个Analyzer对象,StandardAnalyzer对象
		2)使用分析器对象的tokenStream方法获得一个TokenStream对象
		3)向TokenStream对象中设置一个引用,相当于数一个指针
		4)调用TokenStream对象的rest方法。如果不调用抛异常
		5)使用while循环遍历TokenStream对象
		6)关闭TokenStream对象

2、IKAnalyze的使用方法

	1)把IKAnalyzer的jar包添加到工程中
	2)把配置文件和扩展词典添加到工程的classpath下
	注意:扩展词典严禁使用windows记事本编辑保证扩展词典的编码格式是utf-8
	扩展词典:添加一些新词
	停用词词典:无意义的词或者是敏感词汇

索引库维护

1、添加文档
2、删除文档

	1)删除全部
	2)根据查询、关键词删除文档

3、修改文档
修改的原理是先删除后添加

索引库查询

1、使用Query的子类
1)TermQuery
根据关键词进行查询。
需要指定要查询的域及要查询的关键词
2)RangeQuery
范围查询
2、使用QueryPaser进行查询
可以对要查询的内容先分词,然后基于分词的结果进行查询。
添加一个jar包
lucene-queryparser-7.4.0.jar

补充

索引过程的核心类

·IndexWriter
·Directory
·Analyzer
·Document
·Field

①IndexWriter
索引过程的核心组件。这个类负责创建新索引或者打开已有索引,以及向索引中添加、删除或更新被索引文档的信息。可以把IndexWriter看作这样一个对象:它为你提供针对索引文件的写入操作,但不能用于读取或搜索索引。IndexWriter需要开辟一定空间来存储索引,该功能可以由Directory完成。

②Directory
该类描述了Lucene索引的存放位置。它是一个抽象类,它的子类负责具体指定索引的存储路径。用FSDirectory.open方法来获取真实文件在文件系统的存储路径,然后将它们一次传递给IndexWriter类构造方法。IndexWriter不能直接索引文本,这需要先由Analyzer将文本分割成独立的单词才行。

③Analyzer
文本文件在被索引之前,需要经过Analyzer(分析器)处理。Analyzer是由IndexWriter的构造方法来指定的,它负责从被索引文本文件中提取语汇单元,并提出剩下的无用信息。如果被索引内容不是纯文本文件,那就需要先将其转换为文本文档。对于要将Lucene集成到应用程序的开发人员来说,选择什么样Analyzer是程序设计中非常关键的一步。分析器的分析对象为文档,该文档包含一些分离的能被索引的域。

④Document
Document对象代表一些域(Field)的集合。文档的域代表文档或者文档相关的一些元数据。元数据(如作者、标题、主题和修改日期等)都作为文档的不同域单独存储并被索引。Document对象的结构比较简单,为一个包含多个Filed对象容器;Field是指包含能被索引的文本内容的类。

⑤Field
索引中的每个文档都包含一个或多个不同命名的域,这些域包含在Field类中。每个域都有一个域名和对应的域值,以及一组选项来精确控制Lucene索引操作各个域值。

①IndexSearcher
该类用于搜索由IndexWriter类创建的索引,它是连接索引的中心环节。可以将IndexSearcher类看作是一个以只读方式打开索引的类。它需要利用Directory实例来掌控前期创建的索引,然后才能提供大量的搜索方法。

②Term
Term对象是搜索功能的基本单元。Term对象包含一对字符串元素:域名和单词(或域名文本值)。

③Query
包含了一些非常有用的方法,TermQuery是它的一个子类。

④TermQuery
该类提供最基本的查询,用来匹配指定域中包含特定项的文档。

⑤TopDocs
该类是一个简单的指针容器,指针一般指向前N个排名的搜索结果,搜索结果即匹配查询条件的文档。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值