elasticsearch 处理中英文混合文档

最新推荐文章于 2025-03-05 14:43:38 发布

安然无Yangon

最新推荐文章于 2025-03-05 14:43:38 发布

阅读量3.5k

点赞数

分类专栏： elasticsearch

本文链接：https://blog.csdn.net/qq_36635434/article/details/103067327

版权

elasticsearch 专栏收录该内容

9 篇文章

订阅专栏

我们在学习es过程中，难免会遇到一些们在学习es过程中，难免会遇到一些中国英文混合文档

这时我们如果使用ik ，虽然可以把英文分词，但是处理不了停用词（and ，is这种的），还有无法提取主干信息

比如无法把students 提取为student 等

正常的是这样的：

解决，可以通过自定义分析器（analyzer）

分析器（无论是内置的还是自定义的）只是一个包，其中包含三个较低级别的构建块：tokenizer，filter和character filter。

可以理解为这样：

analyzer : {
tokenizer（1个）

filter（0-到多个）

characterfilter（0-多个）
}

下边是我的分析器

PUT /myanalyaz



{
  "settings": {
    "analysis": {
      "filter": {
        "german_stop": {
          "type":       "stop",
          "stopwords_path":"analysis/stop.txt"
        },"german_stemmer": {
          "type":       "stemmer",
          "language":   "light_english"
        }
      },
      "analyzer" : {
          "my_analyzer" : {
                "tokenizer" : "ik_smart",
                "filter" : [
                    "lowercase",
                    "german_stop",
                    "german_stemmer"
                    ]
                }
            }
    }
  }
}