Elasticsearch 分析器的高级用法二（停用词，拼音搜索）

本文链接：https://blog.csdn.net/ren9436/article/details/139174711

Elasticsearch 分析器的高级用法二（停用词，拼音搜索）

停用词
拼音搜索

停用词

简介

停用词是指，在被分词后的词语中包含的无搜索意义的词。

例如：这里的风景真美。

分词后，”这里“，”的“ 相对于文档搜索意义不大，但这种词使用频率又比较高。为了使搜索更加准确，往往需要在构建索引时，忽略掉这些词

以在这个网站查看常用的停用词

英文：https://www.ranks.nl/stopwords
中文：https://www.ranks.nl/stopwords/chinese-stopwords

停用词分词过滤器

ES支持两种方式过滤停用词

自定义停用词分词过滤器

通过自定义分词过滤器为停用词过滤器，来实现停用词过滤

DELETE /my-index-000001
PUT /my-index-000001
{
   
  "settings": {
   
    "analysis": {
   
      "analyzer": {
   
        "stop_analyer": {
   
          "tokenizer": "ik_smart",
          "filter": [
            "stop"
          ]
        }
      },
      "filter": {
   
        "stop": {
   
          "type": "stop",
          "stopwords": [
            "我",
            "的",
            "这里",
            "哪里"
          ]
        }
      }
    }
  },
  "mappings": {
   
    "properties": {
   
      "content": {
   
        "type":