Elasticsearch的索引模块（正排索引、倒排索引、索引分析模块Analyzer、索引和搜索、停用词、中文分词器）...

最新推荐文章于 2024-04-08 15:47:39 发布

powerx_yc

最新推荐文章于 2024-04-08 15:47:39 发布

阅读量226

点赞数

文章标签：大数据

正向索引的结构如下：

“文档1”的ID > 单词1：出现次数，出现位置列表；单词2：出现次数，出现位置列表；…………。

“文档2”的ID > 此文档出现的关键词列表。

　　一般是通过key，去找value。

当用户在主页上搜索关键词“华为手机”时，假设只存在正向索引（forward index），那么就需要扫描索引库中的所有文档，找出所有包含关键词“华为手机”的文档，再根据打分模型进行打分，排出名次后呈现给用户。因为互联网上收录在搜索引擎中的文档的数目是个天文数字，这样的索引结构根本无法满足实时返回排名结果的要求。

所以，搜索引擎会将正向索引重新构建为倒排索引，即把文件ID对应到关键词的映射转换为关键词到文件ID的映射，每个关键词都对应着一系列的文件，这些文件中都出现这个关键词。

得到倒排索引的结构如下：

“关键词1”：“文档1”的ID，“文档2”的ID，…………。

“关键词2”：带有此关键词的文档ID列表。

　　从词的关键字，去找文档。

　　官网

https://www.elastic.co/guide/en/elasticsearch/reference/5.x/analysis.html

　　

　　官网，提供了很多很多。大家自行去看！

　　　　　　　　

索引分析模块Analyzer

　　分解器Tokenizer

　　词元过滤器token filters

　　经过 Tokenizer

Elasticsearch之IKAnalyzer的过滤停止词

　　大家，有兴趣，可以看看，英文停用词

http://www.ranks.nl/stopwords

　　

　　　　大家，有兴趣，可以看看，中文停用词

Elasticsearch之中文分词器

Elasticsearch之几个重要的分词器

　　更详细，请见

Elasticsearch之中文分词器插件es-ik（博主推荐）

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。