ElasticSearch学习笔记(二)IK分词器和拼音分词器的安装

本文介绍了ElasticSearch中IK分词器和拼音分词器的安装步骤,包括在Windows和Linux环境下的操作,以及如何验证安装是否成功。在Windows下,通过Maven打包项目并上传到服务器;在Linux下,可直接使用Git和Maven完成安装。IK分词器提供了ik_max_word和ik_smart两种模式。
摘要由CSDN通过智能技术生成

ElasticSearch是自带分词器的,但是自带的分词器一般就只能对英文分词,对英文的分词只要识别空格就好了,还是很好做的(ES的这个分词器和Lucene的分词器很想,是不是直接使用Lucene的就不知道),自带的分词器对于中文就只能分成一个字一个字,这个显然是不能满足在开发中的要求的。

先看看自带的分词器的分词效果(还是使用Sense工具):

POST /_analyze
{
  "analyzer":"standard",
  "text":"中华人民共和国国歌"
}

得到的结果是下面这个:

{
   "tokens": [
      {
         "token": "中",
         "start_offset": 0,
         "end_offset": 1,
         "type": "<IDEOGRAPHIC>",
         "position": 0
      },
      {
         "token": "华",
         "start_offset": 1,
         "end_offset": 2,
         "type": "<IDEOGRAPHIC>",
         "position": 1
      },
      {
         "token": "人",
         "start_offset": 2,
         "end_offset": 3,
         "type": "<IDEOGRAPHIC>",
         "position": 2
      },
      {
         "token": "民",
         "start_offset": 3,
         "end_offset": 4,
         "type": "<IDEOGRAPHIC>",
         "position": 3
      },
      {
         "token": "共",
         "start_offset": 4,
         "end_offset": 5,
         "type": "<IDEOGRAPHIC>",
         "position": 4
      },
      {
         "token": "和",
         "start_offset": 5,
         "end_offset": 6,
         "type": "<IDEOGRAPHIC>",
         "position": 5
      },
      {
         "token": "国",
         "start_offset": 6,
         "end_offset": 7,
         "type": "<IDEOGRAPHIC>",
         "position": 6
      },
      {
         "token": "国",
         "start_offset": 7,
         "end_offset": 8,
         "type": "<IDEOGRAPHIC>",
         "position": 7
      },
      {
         "
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值