Elasticsearch学习笔记(1)——Lucene简介

Elasticsearch是一款优秀的全文索引产品。Elasticsearch基于Lucene构建索引和进行查询,理解Lucene的相关知识有助于更深入的学习和使用Elasticsearch。

1. Lucene简介

Lucene是一款成熟的、高性能的、可扩展的、轻量级的、功能强大的全文索引框架。

关键概念

其关键概念包括:

  • Document:数据源,由Field组成。
  • Field:Document的组成部分,由name和value组成。
  • Term:不可分割的单词,搜索最小单元。
  • Token:一个Term的呈现方式,包含这个Term的内容,在文档中的起始位置,以及类型。

数据结构

其核心数据结构是倒排索引,把索引中的每个Term与相应的Document映射起来,形式如下:

Term -> (count, Document)

Lucene实现搜索的核心是索引过程和搜索过程:

  • 索引过程,Lucene用指定的analyzer解析用户添加的Document并存储到倒排索引中。
  • 搜索过程,用户的输入查询语句将被选定的查询解析器(query parser)所解析,生成多个Query对象并从倒排索引中查询。

对于索引过程和搜索过程的数据解析这一环节,我们需要把握的重点在于:倒排索引中词应该和查询语句中的词正确匹配。

分词

数据解析工作由analyzer组件负责。analyzer由一个分词器(tokenizer)和0个或者多个过滤器(filter)组成,也可能会有0个或者多个字符映射器(character mappers)组成。

Lucene中的tokenizer用来把文本拆分成一个个的Token。Token包含了比较多的信息,比如Term在文本的中的位置及Term原始文本,以及Term的长度。文本经过tokenizer处理后的结果称为token stream。token stream其实就是一个个Token的顺序排列。token stream将等待着filter来处理。filter链将用来处理Token Stream中的每一个token。这些处理方式包括删除Token,改变Token,甚至添加新的Token。

操作过程

Lucene的操作方式和操作数据库有点相似。数据库操作流程为:如果要使用数据库,必须先创建数据库,然后往这个数据表中一行一行的插入数据记录,数据记录插入成功之后,就可以操作这张数据表,实现增删改查操作了。在lucene中,“数据库”是索引文件目录,“数据记录”是Document,Document由Field组成,Field由name和value组成。类似的操作流程为:

1、创建索引文件目录;
2、封装数据源:用Field封装需要检索的信息,然后将Field封装到一个Document文档对象;
3、存储索引:将Docement放入索引文件目录中;
4、删除索引:根据索引id去删除对应的索引;
5、更新索引:先将旧的索引删除,然后添加新的索引;
6、查询索引:先创建索引读取对象,然后封装Query查询对象,调用search()方法得到检索结果。

示例可以参考lucene示例

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值