elasticsearch 分析器

一、Elasticsearch的分析器(analyzer)包括三部分:

    1、字符过滤器:他们的任务是在分词前整理字符串。一个字符过滤器可以用来去掉HTML,或者将 & 转化成 `and`等。

    2、分词器:简单的分词器遇到空格或标点的时候讲文本拆分为词条(Token)。

    3、Token过滤器:改变词条(eg: Quick --> quick);删除词(eg: a ,the ,and); 增加同义词(eg: jump == leap)

------------以上是elasticsearch权威指南中内容,适用用于西文字符-------------

二、适用于中文分词的,目前网上看到最多的是IKAnalyzer。

    IKAnalyzer分词器采用的是“正向迭代最细粒度切分算法”。有两种可选模式 :细粒度(ik_max_word)和最大词长(ik_smart)。以“人民大会堂”为例:

采用ik_max_word模式的分词结果为:人民大会堂、人民大会、人民、大会、大会堂、大会、堂。

采用ik_smart模式的分词结果为:人民大会堂。

elasticsearch查询语句为:

curl -XGET '10x.200.x65.x27:9201/_analyze?pretty' -H 'Content-Type: application/json' -d'
{
  "analyzer": "ik_max_word",
  "text": "人民大会堂"
}'

curl -XGET '10x.200.x65.x27:9201/_analyze?pretty' -H 'Content-Type: application/json' -d'
{
  "analyzer": "ik_smart",
  "text": "人民大会堂"
}'

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值