0. 默认词表
coreseek会自带一个分词词表,一般位于
- 1
- 1
对应的明文原始词表一般位于
- 1
- 1
1. 原始词表文件格
格式如下:
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
PHP中,可以用下面函数将一个key转为原始词表文件中的一条
- 1
- 2
- 3
- 1
- 2
- 3
2. 词表文件(.lib文件)生成
假设有原始词表文件dict.txt,执行下面的命令
- 1
- 1
会生成名为dict.txt.uni的词典文件。
若要此文件生效,需要
1. 将其重命名为uni.lib
2. 将uni.lib放到配置文件中charset_dictpath指定的目录
3. 重建索引
4. 重启searchd
3.关于词的长度
mmseg默认支持单个最大词长为5个UTF-8汉字。原始词表中的词若大于此长度,在生成词表时会被截断。如果需要修改,可以如下操作:
1. 找到coreseek源代码目录下的mmseg-**/src/csssegmenter.cpp文件
- 1
- 1
将MAX_TOKEN_LENGTH改为你需要的值
2. 重启编译mmseg及coreseek
3. 重新生成词表
4. 可能的问题
- charset_dictpath目录中不但要有一份词典文件,还要有mmseg.ini,否则无法正常工作。
- 原始词表中如果有非法字符,会导致无法建重建索引。生成原始词表时,可以用下面的php函数对key进行过虑