Elasticsearch 分析器的高级用法二(停用词,拼音搜索)
停用词
简介
停用词是指,在被分词后的词语中包含的无搜索意义的词。
例如:这里的风景真美。
分词后,”这里“,”的“ 相对于文档搜索意义不大,但这种词使用频率又比较高。 为了使搜索更加准确,往往需要在构建索引时,忽略掉这些词
以在这个网站查看常用的停用词
- 英文:https://www.ranks.nl/stopwords
- 中文:https://www.ranks.nl/stopwords/chinese-stopwords
停用词分词过滤器
ES支持两种方式过滤停用词
自定义停用词分词过滤器
通过自定义分词过滤器为 停用词过滤器,来实现停用词过滤
DELETE /my-index-000001
PUT /my-index-000001
{
"settings": {
"analysis": {
"analyzer": {
"stop_analyer": {
"tokenizer": "ik_smart",
"filter": [
"stop"
]
}
},
"filter": {
"stop": {
"type": "stop",
"stopwords": [
"我",
"的",
"这里",
"哪里"
]
}
}
}
},
"mappings": {
"properties": {
"content": {
"type":