coreseek分词词表那些事

0. 默认词表

coreseek会自带一个分词词表,一般位于

/usr/local/mmseg3/etc/uni.lib
 
 
  • 1
  • 1

对应的明文原始词表一般位于

/usr/local/mmseg3/etc/unigram.txt
 
 
  • 1
  • 1

1. 原始词表文件格

格式如下:

暂无    1
x:1
喜羊羊  1
x:1
灰太狼  1
x:1
懒羊羊  1
x:1
 
 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8

PHP中,可以用下面函数将一个key转为原始词表文件中的一条

function _format($key){
    return sprintf("%s\t1\nx:1\n", $key);
}
 
 
  • 1
  • 2
  • 3
  • 1
  • 2
  • 3

2. 词表文件(.lib文件)生成

假设有原始词表文件dict.txt,执行下面的命令

mmseg -u dict.txt
 
 
  • 1
  • 1

会生成名为dict.txt.uni的词典文件。

若要此文件生效,需要 
1. 将其重命名为uni.lib 
2. 将uni.lib放到配置文件中charset_dictpath指定的目录 
3. 重建索引 
4. 重启searchd

3.关于词的长度

mmseg默认支持单个最大词长为5个UTF-8汉字。原始词表中的词若大于此长度,在生成词表时会被截断。如果需要修改,可以如下操作: 
1. 找到coreseek源代码目录下的mmseg-**/src/csssegmenter.cpp文件

#define MAX_TOKEN_LENGTH 15 //3*5
 
 
  • 1
  • 1

将MAX_TOKEN_LENGTH改为你需要的值 
2. 重启编译mmseg及coreseek 
3. 重新生成词表

4. 可能的问题

  1. charset_dictpath目录中不但要有一份词典文件,还要有mmseg.ini,否则无法正常工作。
  2. 原始词表中如果有非法字符,会导致无法建重建索引。生成原始词表时,可以用下面的php函数对key进行过虑
function _check($key) {
    //只有utf8的汉字,字母组成的串才是合法的
    if (!preg_match("/^[\x{4e00}-\x{9fa5}A-Za-z]+$/u", $key)){
        return false;
    }

    return true;
}
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值