4.4 自定义词库
如果要让分词器支持一些专有词语,可以自定义词库。
你会发现诺云是公司名称,但是被分开了,所以我们需要自定义词。因为分词器只能把我们生活中比较通用的词加进去,而一些品牌的名称不会加进入,需要我们自己添加。比如诺云这个品牌名称,我们也想在搜索时候,单独加进去,这时候就需要自定义词库。
iK分词器自带一个main.dic的文件,此文件为词库文件
在上边的目录中新建一个my.dic文件(注意文件格式为utf-8(不要选择utf-8 BOM))
可以在其中自定义词汇:
比如定义:
配置文件中配置my.dic,
编辑文件
如果在my.dic放在文件夹abc下,则路径也要修改。改为 abc/my.dic
最终我选择不创建abc文件夹,放在main.dic的同级目录下。
写下词
重启ElasticSearch
测试分词效果: 发送:post localhost:9200/_analyze
{"text":"诺云直播","analyzer":"ik_max_word" }
发现不管用,那是因为my.dic文件格式不对
改了编码方式后,应该会搜出来一个完整的词,诺云网络,但是我的还有问题。明天解决