ElasticSearch(7.2.2)-浅谈es的分词原理_es数据库text分词原理-CSDN博客

本文链接：https://blog.csdn.net/m0_67265464/article/details/126359671

简介：谈谈elasticsearch的分词原理

我们发现能匹配档出来，那整个过程的原理是怎样的呢？

为什么同样是输’乔’，为什么msg能匹配出档，msg_chinese不能呢？

分词结果

乔，丹，是，篮，球，之，神

分词结果

乔丹， 是， 篮球， 之神

由于读时分词器默认与写时分词器默认保持致，拿上的例，你搜索 msg 字段，那么读时分词器为 Standard ，搜索 msg_chinese 时分词器则为 ik_max_word。这种默认设定也是常容易理解的，读写采致的分词器，才能尽最可能保证分词的结果是可以匹配的。
允许读时分词器单独设置

POST test/_search
{
“query”: {
“match”: {
“msg_chinese”: {
“query”: “乔丹”,
“analyzer”: “standard”
}
}
}
}
般来讲不需要特别指定读时分词器，如果读的时候不单独设置分词器，那么读时分词器的验证法与写时致。

在这里插入图片描述

分析器(analyzer)有三部分组成
- char filter ：字符过滤器
- tokenizer ：分词器
- token filter ：token过滤器
char filter（字符过滤器）
- 字符过滤器以字符流的形式接收原始本，并可以通过添加、删除或更改字符来转换该流。个分析器可能有0个或多个字符过滤器。
tokenizer (分词器)
- 个分词器接收个字符流，并将其拆分成单个token （通常是单个单词），并输出个token流。如使whitespace分词器当遇到空格的时候会将本拆分成token。“eating an apple” >> [eating, and, apple]。个分析器必须只能有个分词器
POST _analyze
{
“text”: “eating an apple”,
“analyzer”: “whitespace”
}
token filter (token过滤器)
- token过滤器接收token流，并且可能会添加、删除或更改tokens。如个lower case token filter可以将所有的token转成写。个分析器可能有0个或多个token过滤器，它们按顺序应。