ElasticSearch使用ik中文分词器集成html_strip网页标签过滤器

最新推荐文章于 2025-04-29 17:26:30 发布

雨夜星辰03

最新推荐文章于 2025-04-29 17:26:30 发布

阅读量5k

点赞数

分类专栏： javaEE 文章标签： ElasticSearch elasticsearch-analysis-ik ik分词器 html_strip

本文链接：https://blog.csdn.net/QWERTY1994/article/details/80455401

版权

javaEE 专栏收录该内容

19 篇文章

订阅专栏

绝招就是使用自定义分析器

可以参考官方文档

https://www.elastic.co/guide/en/elasticsearch/reference/5.6/analysis-custom-analyzer.html

tokenizer

A built-in or customised tokenizer. (Required) 这个参数是必须的,分词令牌

char_filter

An optional array of built-in or customised character filters. 这个是过滤器,数组,可以添加多个

配置自定义的配置:

PUT my_index
{
  "settings": {
    "analysis": {
      "analyzer": {
        "名字随便取": {
          "tokenizer": "ik_smart或者ik_max_word",
          "char_filter": ["html_strip"]
        }
      }
    }
  }
}

配置mapping的时候引用

{
  "properties": {
   
    "article": {
      "type": "string",
      "analyzer": "上面你配置的自定义分词器名字",
      "search_analyzer": "ik_smart"
      }
  }
}