修改ES默认分词设置

原创 2018年04月16日 10:49:58

        ES的默认分词设置是standard,这个在中文分词时就比较尴尬了,会单字拆分,比如我搜索关键词“清华大学”,这时候会按“清”,“华”,“大”,“学”去分词,然后搜出来的都是些“清清的河水”,“中华儿女”,“地大物博”,“学而不思则罔”之类的莫名其妙的结果,这里我们就想把这个分词方式修改一下,于是呢,就想到了ik分词器,有两种ik_smart和ik_max_word。

        ik_smart会将“清华大学”整个分为一个词,而ik_max_word会将“清华大学”分为“清华大学”,“清华”和“大学”,按需选其中之一就可以了。

修改默认分词方法(这里修改school_index索引的默认分词为:ik_max_word):

PUT /school_index
{
    "settings" : {
        "index" : {
            "analysis.analyzer.default.type": "ik_max_word"
        }
    }
}

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/tclzsn7456/article/details/79957545

WordPress网站使用和设置(学会网站应用)

本课程学习网站搭建之后的操作,例如如何发布文章更新、如何设置标题优化设置等操作,如果你已经学习了之前零基础网站搭建教程并已经完成了网站的搭建,那么马上开始学习本课程吧。
  • 2017年01月16日 09:19

Elasticsearch笔记六之中文分词器及自定义分词器

elasticsearch中配置中文分词器以及自定义分词器
  • ty4315
  • ty4315
  • 2016-09-08 21:45:56
  • 9610

ElasticSearch分词器

什么是分词器? 分词器,是将用户输入的一段文本,分析成符合逻辑的一种工具。到目前为止呢,分词器没有办法做到完全的符合人们的要求。和我们有关的分词器有英文的和中文的。英文的分词器过程:输入文本-关键词...
  • pilihaotian
  • pilihaotian
  • 2016-09-07 11:00:45
  • 2863

关于ElasticSearch 5.X分词器的问题

在近几天的工作中,发现在ES的查询请求分词出现了点问题,ES的索引构建的mapping指定了分词器为ik_smart,但查询请求中没指定分词器,按理应该采用mapping中指定的分词器才对,但实际发现...
  • lijiaz5033
  • lijiaz5033
  • 2017-07-21 19:26:44
  • 731

Elasticsearch 5.0 中term 查询和match 查询(text和keyword)

Elasticsearch 5.0 关于term query和match query的认识一、基本情况前言:term query和match query牵扯的东西比较多,例如分词器、mapping、倒...
  • yangwenbo214
  • yangwenbo214
  • 2017-01-06 21:20:31
  • 10098

elasticsearch的keyword与text的区别

es2.*用户可忽略该文章。es 2.*版本里面是没有这两个字段!!! 当初接触es,最惊讶就是他的版本速度发布太快,这次主要讨论keyword与text的区别 在es 2.*版本里面是没有这...
  • wwd0501
  • wwd0501
  • 2017-09-26 09:25:53
  • 5615

修改ES默认分词设置

        ES的默认分词设置是standard,这个在中文分词时就比较尴尬了,会单字拆分,比如我搜索关键词“清华大学”,这时候会按“清”,“华”,“大”,“学”去分词,然后搜出来的都是些“清清的...
  • tclzsn7456
  • tclzsn7456
  • 2018-04-16 10:49:58
  • 37

es 分词配置

ElasticSearch是一个基于Lucene构建的开源,分布式,RESTful搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。支持通过HTTP使用JSON进行数据索引...
  • wolvesqun
  • wolvesqun
  • 2017-01-22 19:08:22
  • 3112

elasticsearch设置中文分词

由于elasticsearch基于lucene,所以天然地就多了许多lucene上的中文分词的支持,比如 IK, Paoding, MMSEG4J等lucene中文分词原理上都能在elasticsea...
  • qq_35280509
  • qq_35280509
  • 2016-09-26 10:39:01
  • 1108

中文分词软件包的使用

中文分词 (Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词...
  • qianwenhong
  • qianwenhong
  • 2014-12-10 14:09:15
  • 7955
收藏助手
不良信息举报
您举报文章:修改ES默认分词设置
举报原因:
原因补充:

(最多只允许输入30个字)