Elasticsearch 分词

lamp_yang_3533

已于 2023-03-31 21:57:16 修改

阅读量457

点赞数 1

分类专栏： Elastic Stack 文章标签： Elasticsearch Analyzer Tokenizer Filter ik

于 2019-07-20 19:40:46 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lamp_yang_3533/article/details/96622402

版权

什么是 Analysis

Analysis 是指对全文本（Full Text）进行分词，以便生成供搜索用的倒排索引。

这个过程是由 analyzer（分析器、分词器） 来完成的。

分词器（Analyzer）

分词器主要包含三个组成部分。

Character Filter
Tokenizer
Filter

字符过滤器（Character Filter） ：文本字符串首先会经过字符过滤器的预处理，过滤掉无用的字符（如 HTML 标记），将 "&" 转换为 "and" 等。

分词器（Tokenizer） ：能够将字符串拆分为一个个独立的 token 或 term（词条）。

过滤器（Filter） ：经过分词器处理后的一系列 token ，可以由过滤器再次进行处理。比如，修改 token（转换为小写）、删除无用的 token（如 the）、增加同义词等等。

Tokenizer

Tokenizer 是 Analyzer 最重要的组成部分。

Elasticsearch 中有很多内置的 Tokenizer，我们可以用它来创建自定义的 Analyzer。

这些内置的 Tokenizer，可以分为三大类：

单词分词器
局部单词分词器
结构化文本分词器

单词分词器

单词分词器（Word Tokenizer）主要用于将全文本拆分为独立的单词。

单词分词器主要包含以下几种：

Standard Tokenizer（标准分词器）：基于单词边界将文本拆分为独立的项，它会删除大多数标点符号。
Letter Tokenizer（字母分词器）：拆分文本时，如果遇到非字母就进行拆分。
Lowercase Tokenizer（小写字母分词器）：和字母分词器类似，它还会将拆分后的项转化为小写字母。
Whitespace Tokenizer（空格分词器）：顾名思义，拆分文本时，如果遇到任何空格就进行拆分。
UAX URL Email Tokenizer（URL & Email分词器）：和标准分词器类似，它还可以对 URL 和 Email 进行拆分。
Classic Tokenizer（经典分词器&#

最低0.47元/天解锁文章

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
Elasticsearch 分词

Analysis 是指对全文本（Full Text）进行分词，以便生成供搜索用的倒排索引。这个过程是由 analyzer（分析器、分词器）来完成的。
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。