lucene介绍

1. 搜索介绍

1.1. 搜索的实现方案

1.1.1. 传统的实现方案

根据用户输入的搜索关键字(java),应用服务器通过sql语句操作数据库,数据库返回搜索结果给应用服务器,应用服务器再响应用户。

传统实现方案的特点:用户量很大,数据量也很大,数据库服务器压力很大,查询速度慢。



1.1.2. lucene实现方案(全文检索实现方案)

根据用户输入的搜索关键字(java),应用服务器通过lucene提供的API操作索引库,索引库返回相关搜索结果给应用服务器,应用服务器再响应用户。

 

lucene的实现方案:解决用户量很大,数据量也很大,业务系统对查询速度要求高的业务需求(实时查询)。



1.2. 数据查询方法

1.2.1. 顺序扫描法

举个例子:我们有大量的文件,比如ABC......。需要找出文件内容中包含有java的所有文件。需要从A文件开始查找,再B文件,然后再C文件,一直找到最后一个文件,才能得到内容中包含有java的所有文件。

顺序扫描法的特点:如果文件数量很多,查找速度很慢。

1.2.2. 倒排索引法(反向索引法)(重要)

举个例子:使用新华字典查询汉字,首先找到偏旁部首对应的目录,再根据目录找到目标汉字。

 

lucene建立倒排索引:

文件一(编号0):we like java java java

文件二(编号1)we like lucene lucene luene

Term

(DocFreq)

(Pos)

we

(01) (11)

(0) (0)

like

(01) (1,1)

(1) (1)

java

(03)

(234)

lucene

(13)

(234)

说明:

1. 倒排索引,就是建立词语与文档的对应关系(词语再什么文件出现,出现了多少词,在什么位置出现)

2. 查询的时候,直接根据搜索关键字,在倒排索引中找到对应关系就可以。

1.3. 搜索技术的应用场景

1. 单机软件搜索(wps ,officeexceleclipse

2. 站内搜索(京东,淘宝)

3. 垂直搜索(限定某个行业的搜索,比如:教育,医疗)

4. 平台搜索(百度,360,搜狗)


2. lucene介绍

2.1. lucene是什么

luceneapache软件基金会下的一个子项目。是一个成熟、免费、开放源代码的全文检索引擎工具包。提供了一套简单易用的API,方便在目标系统中实现全文检索功能。目前已经有很多应用系统的搜索功能是基于lucene来实现。比如eclipse帮助系统的搜索功能。

lucene能够为文本类型的数据建立索引,只需要把数据转换成文本格式,lucene就可以对文档进行索引和搜索。比如常见的word文档、html文档、pdf文档。首先将文档内容转换成文本格式,交给lucene进行索引,把建立好的索引保存在硬盘或者内存中。然后根据用户输入的查询条件,在索引文件中查找,返回查询结果给用户。

2.2. 全文检索是什么

全文检索计算机通过索引程序,扫描文件中的每一个词语,建立词语与文件的对应关系(词语在什么文件出现,出现了多少次,在什么位置出现)。

在查询的时候,计算机通过检索程序,根据搜索关键词,在索引库中查找目标内容。

2.3. lucene与搜索引擎区别

lucene是全文检索引擎工具包,相当于汽车的发动机。搜索引擎是基于全文检索实现,是可独立运行的软件系统,已经是产品,相当于汽车。

2.4. lucene官方网站

网址:http://lucene.apache.org/





  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值