coreseek之mmseg分词和词库拓展

最新推荐文章于 2018-10-09 13:59:04 发布

风云来

最新推荐文章于 2018-10-09 13:59:04 发布

阅读量2.7k

点赞数 1

分类专栏：中文搜索文章标签：中文分词

本文链接：https://blog.csdn.net/chenjiayi_yun/article/details/53619654

版权

本文详细介绍了MMSeg分词算法，包括chunk概念、四个过滤规则及分词过程，并探讨了如何通过词库扩充提高搜索精度，如从搜狗拼音官网下载词库并进行处理，以适应不同业务需求。

摘要由CSDN通过智能技术生成

mmseg分词算法是基于统计模型的，所以算法的规则也是来自对语料库的分析和数学归纳，因为中文字符没有明确的分界，会导致大量的字符分界歧义，而且，中文里面，词和短语也很难界定，因此，算法除了要做统计和数学归纳之外，还要做歧义的解决。

在mmseg分词中，有一个叫chunk的概念：

chunk，是一句话的分词方式。包括一个词条数组和四个规则。

如：研究生命，有“研究/生命”和“研究生/命”两种分词方式，这就是两个chunk。

一个chunk有四个属性：长度、平均长度（长度/分词数）、方差、单字自由度（各单词条词频的对数之和）。

下面列出了chunk的4个属性以及对应的规则：