ES分词


## 什么是分词

```
把文本转换为一个个的单词,分词称之为analysis。es默认只对英文语句做分词,中文不支持,每个中文字都会被拆分为独立的个体。
```

## es内置分词器

```
- standard:默认分词,单词会被拆分,大小会转换为小写。
- simple:按照非字母分词。大写转为小写。
- whitespace:按照空格分词。忽略大小写。
- stop:去除无意义单词,比如the/a/an/is…
- keyword:不做分词。把整个文本作为一个单独的关键词
```

## 分词可用方案
```
分词器                          优势                                            劣势
Smart Chinese Analysis        官方插件                                   中文分词效果惨不忍睹
IKAnalyzer                    简单易用,支持自定义词典和远程词典       词库需要自行维护,不支持词性识别
结巴分词                       新词识别功能                                  不支持词性识别
Ansj中文分词                   分词精准度不错,支持词性识别              对标hanlp词库略少,学习成本高
Hanlp                          目前词库最完善,支持的特性非常多          

©️2020 CSDN 皮肤主题: 大白 设计师:CSDN官方博客 返回首页