Elasticsearch(五)

本文档详细介绍了Elasticsearch中的分析器在文档加入倒排索引前的作用,包括字符过滤、分词、分词过滤和分词索引等步骤。同时,讲解了如何在索引创建时、配置文件中以及映射中指定分析器,以实现对数据的定制化处理。
摘要由CSDN通过智能技术生成

在文档在加入倒排索引之前,会对数据进行一系列的分析。基本分为以下几个步骤。

概述

*字符过滤---使用字符过滤器转变字符。

*文本切分为分词---将文本切分为单个或多个分词。

*分词过滤---使用分词过滤器转变每个分词。

*分词索引---将这些分词存储到索引中。

以上几个步骤可以参考下图:

字符过滤器可以将 特定的的字符序列转变为其他的字符序列,比如将 I love u 2 转换为I love you too.

文本切分为分词,实际上是利用分词器将文本切分为分词,英文可以表示为token,比如 share your experience with NoSql and big data technologies分解为share,your,experience,with,NoSql,and,big,data,technologies.在分词完成后并不是直接对token建立倒排索引,而是将每个分词运用分词过滤器,分词作为输入,输入到分词过滤器中,根据需要进行修改、添加或者是删除,最为常用的分词过滤器小写分词过滤器,这也是为了保证在搜索词条“nosql”的时候可以找回“NoSql”。另外还有其他两种常用的分词过滤器,一种是停用词分词过滤器,可以删除停用词。另一种是同义词分词过滤器,比如讲token"tools"作为“technologies”作为同义词进行添加。

在分词经历了零个或者是多个分词过滤器后,它们被发送到Lucene进行文档的索引。

对这些分析器的设置可以在索引创建时,可以在elasticsearch配置文件中进行配置,还可以在映射中指定某个字段的分析器。

在索引创建时添加分析器

curl -XPOST &
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值