ES(2)搜索引擎的概念及基础分词器介绍

一.书与搜索引擎

1.正排索引的概念
用户可以通过文档Id到文档内容、单词的关联关系。
单词的意思就是,将文档内容做了分词之后,每一个单词的结果

2.倒排索引的概念
单词到文档Id之间的关系进行索引

3.索引的查询流程
例如:查询包含"搜索引擎"的文档
	步骤:①通过倒排索引获得"搜索引擎"对应的文档ID
		  ②通过正排索引查询对应的文档Id,获得完整内容
		  ③返回给用户最终结果

二.倒排索引的构成

倒排索引是搜索引擎的核心,主要包含两个部分:
	①单词词典(Term Dictionary)
	②倒排列表(Posting List)
1.单词词典
	单词词典是倒排索引的重要组成部分,有如下特点:
		①记录所有文档的单词,因为分词的结果比较多,所以一般都比较大。
		②记录单词到倒排列表的关联信息。
	一般的单词字典的实现使用的是B+树
	
2.倒排列表
	概念:倒排列表是记录单词对应的文档集合,由倒排索引项组成
	倒排索引项主要包含以下信息:
		①文档id:用于获取原始信息
		②单词频率,记录单词在该文档中出现的次数,用于后续相关性算分
		③位置,记录单词在文档中的分词位置,用于做词语搜索
		④偏移,记录单词在文档的开始和结束位置,用于做高亮显示

三.分词

1.基本概念
	分词是指将文本转换成一系列单词的过程,也叫做文本分析,在es里称为Analysis。

2.分词器
	分词器是es中专门处理分词的组件,成为Analyzer,它的组成如下:
	①Character Filters:针对原始文本进行处理,比如说去除html标记符
	②Tokenizer:将原始文
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值