Lucene

最新推荐文章于 2019-07-16 19:32:00 发布

qq_21244099

最新推荐文章于 2019-07-16 19:32:00 发布

阅读量107

点赞数

Lucene

Lucene 简介
- 深入 lucene

Lucene 简介

Lucene 是什么
Lucene 是一个开放源代码的全文检索引擎工具包，但它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，部分文本分析引擎。说到底它是一个信息检索程序库，而不是应用产品。因此它并不像百度或者 google 那样，拿来就能用，它只是提供了一种工具让你能实现这些产品。
Lucene 能做什么
要回答这个问题，先要了解 lucene 的本质。实际上 lucene 的功能很单一，说到底，就是我们给它若干个字符串，然后它为我们提供一个全文搜索服务，最后告诉我们要搜索的关键词出现在哪里。知道了这个本质，我们就可以发挥想象做任何符合这个条件的事情了。比如我们可以把站内新闻都索引了，做个资料库；也可以把一个数据库表的若干个字段索引起来，那就不用再担心因为“%like%”而锁表了；学完 lucene,你也可以写个自己的搜索引擎了……
Lucene 速度测试

测试一：250 万记录，300M 左右文本，生成索引 380M 左右，800 线程
下平均处理时间 300ms。
测试二：37000 记录，索引数据库中的两个 varchar 字段，索引文件2.6M，800 线程下平均处理时间 1.5ms。

深入 lucene

为什么 lucene 这么快

倒排索引
压缩算法
二元搜索

倒排序索引
它是根据属性的值来查找记录。这种索引表中的每一项都包括一
个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属
性值，而是由属性值来确定记录的位置，因而称为倒排索引
(invertedindex)。
工作方式
Lucene 提供的服务实际包含两部分：一入一出。所谓入是写入，
即将你提供的源（本质是字符串）写入索引或者将其从索引中删除；
所谓出是读出，即向用户提供全文搜索服务，让用户可以通过关键词
定位源。
写入流程

源字符串首先经过 analyzer 处理，包括：分词，分成一个个单词；
去除 stopword（可选）。
将源中需要的信息加入 Document 的各个 Field（信息域）中，并
把需要索引的 Field 索引起来，把需要存储的 Field 存储起来。
将索引写入存储器，存储器可以是内存或磁盘。

读出流程

用户提供搜索关键词，经过 analyzer 处理。
对处理后的关键词搜索它的索引，找出对应的 Document。
用户根据需要从找到的 Document 中提取需要的 Field。

Docement
用户提供的源是一条条记录，它们可以是文本文件、字符串或者
数据库表的一条记录等等。一条记录经过索引之后，就是以一个
Document 的形式存储在索引文件中的。用户进行搜索，也是以
Document 列表的形式返回。
Field
一个 Document 可以包含多个信息域，例如一篇文章可以包含“标
题”、“正文”、“最后修改时间”等信息域，这些信息域就是通过 Field
在 Document 中存储的。
Field 有两个属性可选：存储和索引。通过存储属性你可以控制
是否对这个 Field 进行存储；通过索引属性你可以控制是否对该
Field 进行索引。这看起来似乎有些废话，事实上对这两个属性的正
确组合很重要。
实现原理
文本倒排处理：

Lucene 整体使用如图所示：
环境配置
下载 lucene jar
官网：https://lucene.apache.org/
导入 jar 到项目中
创建索引
查询索引
其他功能

分词器
Lucene 自带的 StandardAnalyzer 分词器，只能对英语进行分词。
在对中文进行分词的时候采用了一元分词，即每一个中文作为一个词，
如“我是中国人”，则分词结果为“我”，“是”，“中”，“国”，“人”，
可以看出分词效果很差。在这里推荐一个比较好用的中文分词器
IKAnalyzer。
停用词
停用词是指在信息检索中，为节省存储空间和提高搜索效率，在
处理自然语言数据（或文本）之前或之后会自动过滤掉某些字或词，
这些字或词即被称为 Stop Words（停用词）。比如中文中“了”，“么”，
“呢”，“的”等意义不大且在一篇文章中出现频率又很高的词，又比
如英文中的”for”,”in”,”it”,”a”,”or”等词。
在使用 IKAnalyzer 分词器的时候，可以在 IKAnalyzer.cfg.xml
里配置相关信息，如下图：
高亮-Highlighter

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Lucene

Lucene学习Lucene 简介深入 luceneLucene 简介Lucene 是什么Lucene 是一个开放源代码的全文检索引擎工具包，但它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，部分文本分析引擎。说到底它是一个信息检索程序库，而不是应用产品。因此它并不像百度或者 google 那样，拿来就能用，它只是提供了一种工具让你能实现这些产品。...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。