coreseek添加新词库
coreseek使用mmseg作为分词工具,默认的词库是有限的,我们需要为mmseg增加自定义词,用来丰富词库,实现更加精准的搜索服务。本文介绍如何自定义mmseg词,并通过脚本和mmseg命令导入词库。
1、下载搜狗词库
搜狗词库下载地址:http://pinyin.sogou.com/dict/
2、然后通过以下工具 把搜狗词库scel转txt/mmseg
https://www.toolnb.com/tools/scelto.html
3、将多个词库txt文本文件合并为一个文件
新建一个文本文档,文本中输入如下代码:
copy *.txt unigram.txt
将文本文档的扩展名改为bat,如“merge.bat”。
双击运行merge.bat,会将所有以.txt结尾的文件合并到unigram.txt中
4、生成uni.lib最终词库
用cmd命令行进入bin文件夹,里面有个mmseg.exe 程序
cd E:\..\coreseek-3.2.14-win32\coreseek-3.2.14-win32\bin
unigram.txt也放入这个文件夹
在cmd中运行以下命令
mmseg -u unigram.txt
将会在unigram.txt所在目录中产生一个名为unigram.txt.uni的文件,
将该文件改名为uni.lib,
完成词典的构造。
需要注意的是,unigram.txt需要预先准备,并且编码格式必须为UTF-8编码。
5. 测试新词库能否正解分词。在C:\coreseek\bin下新建文本文件test.txt。输入要测试的关键词。 例如:四季服装网中大面料辅料