继上篇文章:分布式搜索引擎ElasticSearch之head插件安装使用(二)
3.IK分词器
4.1
什么是
IK
分词器
我们在浏览器地址栏输入
http://127.0.0.1:9200/_analyze?analyzer=chinese&pretty=true&text=
我是程序员,浏览器显示效果如下
默认的中文分词是将每个字看成一个词,这显然是不符合要求的,所以我们需要安装中 文分词器来解决这个问题。 IK分词是一款国人开发的相对简单的中文分词器。虽然开发者自2012年之后就不在维护 了,但在工程应用中IK算是比较流行的一款!我们今天就介绍一下IK中文分词器的使用。
3.2 IK分词器安装
下载地址:
链接:https://pan.baidu.com/s/1etMNjY1L2c2slon0ee5-Gw
提取码:4a05
提取码:4a05
(
1
)先将其解压,将解压后的
elasticsearch
文件夹重命名文件夹为
ik
(2)将
ik
文件夹拷贝到
elasticsearch/plugins
目录下。
(3)重新启动,即可加载IK分词器
3.3 IK分词器测试
IK
提供了两个分词算法
ik_smart
和
ik_max_word
其中
ik_smart
为最少切分,
ik_max_word
为最细粒度划分
我们分别来试一下
(
1
)最小切分:在浏览器地址栏输入地址
http://127.0.0.1:9200/_analyze?analyzer=ik_smart&pretty=true&text=
我是程序员
输出的结果为:
(2)最细切分:在浏览器地址栏输入地址
http://127.0.0.1:9200/_analyze?analyzer=ik_max_word&pretty=true&text=
我是程序
员
输出的结果为:
.4
自定义词库
我们现在测试
"
军哥博文
"
,浏览器的测试效果如下:
http://127.0.0.1:9200/_analyze?analyzer=ik_smart&pretty=true&text=
军哥博文
默认的分词并没有识别“军哥博文”是一个词。如果我们想让系统识别“军哥博文”是一个
词,需要编辑自定义词库。
步骤:
(
1
)进入
elasticsearch/plugins/ik/config
目录
(2)新建一个zhao588
.dic
文件,名字随意起,编辑内容:
军哥博文
一定注意这里文件编码格式一定是UTF-8
修改IKAnalyzer.cfg.xml(在ik/config目录下)
重新启动elasticsearch,通过浏览器测试分词效果
nice!!!