词汇长度: 默认为5个UTF-8汉字,如果需要修改,可以如下操作: 1. 打开:mmseg源代码/css/segmenter.cpp 2. 修改:#define MAX_TOKEN_LENGTH 15 //3*5 3. 重新编译mmseg和coreseek
Coreseek+Mmseg 中文分词词汇长度修改
最新推荐文章于 2021-01-12 05:15:30 发布
词汇长度: 默认为5个UTF-8汉字,如果需要修改,可以如下操作: 1. 打开:mmseg源代码/css/segmenter.cpp 2. 修改:#define MAX_TOKEN_LENGTH 15 //3*5 3. 重新编译mmseg和coreseek