“token”: “程”,
“start_offset”: 6,
“end_offset”: 7,
“type”: “”,
“position”: 6
},
{
“token”: “师”,
“start_offset”: 7,
“end_offset”: 8,
“type”: “”,
“position”: 7
}
]
}
为了词项搜索能得到我们想要的结果,需要换一个分词器,理想的分词效果应该是"我们"、“是”、“软件”、“工程师”,ik分词器可以满足我们的要求,接下来开始实战;
注意事项
-
下面的所有操作都使用es账号来进行,不要用root账号;
-
编译ik分词器需要用到maven,如果您有docker,但是不想安装maven,可以参考《没有JDK和Maven,用Docker也能构建Maven工程》来编译工程;
下载IK分词器源码到Ubuntu
-
登录ik分词器网站:https://github.com/medcl/elasticsearch-analysis-ik
-
按照网站提供的版本对应表,确认我们要使用的分词器版本,很遗憾写文章的时候还没有匹配elasticsearch-6.5.0的版本,那就用master吧,也就是下图中的红框版本:
- 如下图,点击下载zip文件:
- 将下载的zip包放到Ubuntu机器上,解压后是个名为elasticsearch-analysis-ik-master的文件夹,在此文件夹下执行以下命令,即可开始构建ik分词器工程:
mvn clean package -U -DskipTests