Elasticsearch(五)

最新推荐文章于 2024-07-15 14:01:48 发布

夏末的初雪

最新推荐文章于 2024-07-15 14:01:48 发布

阅读量228

点赞数

分类专栏： Elasticsearch 文章标签： analyzer es 索引

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_27717921/article/details/97796690

版权

本文档详细介绍了Elasticsearch中的分析器在文档加入倒排索引前的作用，包括字符过滤、分词、分词过滤和分词索引等步骤。同时，讲解了如何在索引创建时、配置文件中以及映射中指定分析器，以实现对数据的定制化处理。

摘要由CSDN通过智能技术生成

在文档在加入倒排索引之前，会对数据进行一系列的分析。基本分为以下几个步骤。

概述

*字符过滤---使用字符过滤器转变字符。

*文本切分为分词---将文本切分为单个或多个分词。

*分词过滤---使用分词过滤器转变每个分词。

*分词索引---将这些分词存储到索引中。

以上几个步骤可以参考下图：

字符过滤器可以将特定的的字符序列转变为其他的字符序列，比如将 I love u 2 转换为I love you too.

文本切分为分词，实际上是利用分词器将文本切分为分词，英文可以表示为token,比如 share your experience with NoSql and big data technologies分解为share,your,experience,with,NoSql,and,big,data,technologies.在分词完成后并不是直接对token建立倒排索引，而是将每个分词运用分词过滤器，分词作为输入，输入到分词过滤器中，根据需要进行修改、添加或者是删除，最为常用的分词过滤器小写分词过滤器，这也是为了保证在搜索词条“nosql”的时候可以找回“NoSql”。另外还有其他两种常用的分词过滤器，一种是停用词分词过滤器，可以删除停用词。另一种是同义词分词过滤器，比如讲token"tools"作为“technologies”作为同义词进行添加。

在分词经历了零个或者是多个分词过滤器后，它们被发送到Lucene进行文档的索引。

对这些分析器的设置可以在索引创建时，可以在elasticsearch配置文件中进行配置，还可以在映射中指定某个字段的分析器。

在索引创建时添加分析器

curl -XPOST &

最低0.47元/天解锁文章

夏末的初雪

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Elasticsearch(五)

在文档在加入倒排索引之前，会对数据进行一系列的分析。基本分为以下几个步骤。概述*字符过滤---使用字符过滤器转变字符。*文本切分为分词---将文本切分为单个或多个分词。*分词过滤---使用分词过滤器转变每个分词。*分词索引---将这些分词存储到索引中。以上几个步骤可以参考下图：字符过滤器可以将特定的的字符序列转变为其他的字符序列，比如将 I love u 2 转换为I...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。