Lucene

Lucene 简介

  1. Lucene 是什么
    Lucene 是一个开放源代码的全文检索引擎工具包,但它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎。说到底它是一个信息检索程序库,而不是应用产品。因此它并不像百度或者 google 那样,拿来就能用,它只是提供了一种工具让你能实现这些产品。
  2. Lucene 能做什么
    要回答这个问题,先要了解 lucene 的本质。实际上 lucene 的功能很单一,说到底,就是我们给它若干个字符串,然后它为我们提供一个全文搜索服务,最后告诉我们要搜索的关键词出现在哪里。知道了这个本质,我们就可以发挥想象做任何符合这个条件的事情了。比如我们可以把站内新闻都索引了,做个资料库;也可以把一个数据库表的若干个字段索引起来,那就不用再担心因为“%like%”而锁表了;学完 lucene,你也可以写个自己的搜索引擎了……
  3. Lucene 速度测试
  • 测试一:250 万记录,300M 左右文本,生成索引 380M 左右,800 线程
    下平均处理时间 300ms。
  • 测试二:37000 记录,索引数据库中的两个 varchar 字段,索引文件2.6M,800 线程下平均处理时间 1.5ms。

深入 lucene

  1. 为什么 lucene 这么快
  • 倒排索引
  • 压缩算法
  • 二元搜索
  1. 倒排序索引
    它是根据属性的值来查找记录。这种索引表中的每一项都包括一
    个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属
    性值,而是由属性值来确定记录的位置,因而称为倒排索引
    (invertedindex)。
    在这里插入图片描述
  2. 工作方式
    Lucene 提供的服务实际包含两部分:一入一出。所谓入是写入,
    即将你提供的源(本质是字符串)写入索引或者将其从索引中删除;
    所谓出是读出,即向用户提供全文搜索服务,让用户可以通过关键词
    定位源。
  3. 写入流程
  • 源字符串首先经过 analyzer 处理,包括:分词,分成一个个单词;
    去除 stopword(可选)。
  • 将源中需要的信息加入 Document 的各个 Field(信息域)中,并
    把需要索引的 Field 索引起来,把需要存储的 Field 存储起来。
  • 将索引写入存储器,存储器可以是内存或磁盘。
  1. 读出流程
  • 用户提供搜索关键词,经过 analyzer 处理。
  • 对处理后的关键词搜索它的索引,找出对应的 Document。
  • 用户根据需要从找到的 Document 中提取需要的 Field。
  1. Docement
    用户提供的源是一条条记录,它们可以是文本文件、字符串或者
    数据库表的一条记录等等。一条记录经过索引之后,就是以一个
    Document 的形式存储在索引文件中的。用户进行搜索,也是以
    Document 列表的形式返回。

  2. Field
    一个 Document 可以包含多个信息域,例如一篇文章可以包含“标
    题”、“正文”、“最后修改时间”等信息域,这些信息域就是通过 Field
    在 Document 中存储的。
    Field 有两个属性可选:存储和索引。通过存储属性你可以控制
    是否对这个 Field 进行存储;通过索引属性你可以控制是否对该
    Field 进行索引。这看起来似乎有些废话,事实上对这两个属性的正
    确组合很重要。

  3. 实现原理
    文本倒排处理:
    在这里插入图片描述
    Lucene 整体使用如图所示:
    在这里插入图片描述

  4. 环境配置
    下载 lucene jar
    官网:https://lucene.apache.org/
    导入 jar 到项目中

  5. 创建索引
    在这里插入图片描述

  6. 查询索引
    在这里插入图片描述

  7. 其他功能

  • 分词器
    Lucene 自带的 StandardAnalyzer 分词器,只能对英语进行分词。
    在对中文进行分词的时候采用了一元分词,即每一个中文作为一个词,
    如“我是中国人”,则分词结果为“我”,“是”,“中”,“国”,“人”,
    可以看出分词效果很差。在这里推荐一个比较好用的中文分词器
    IKAnalyzer。
  • 停用词
    停用词是指在信息检索中,为节省存储空间和提高搜索效率,在
    处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,
    这些字或词即被称为 Stop Words(停用词)。比如中文中“了”,“么”,
    “呢”,“的”等意义不大且在一篇文章中出现频率又很高的词,又比
    如英文中的”for”,”in”,”it”,”a”,”or”等词。
    在使用 IKAnalyzer 分词器的时候,可以在 IKAnalyzer.cfg.xml
    里配置相关信息,如下图:
    在这里插入图片描述
  • 高亮-Highlighter
    在这里插入图片描述
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值