需要源码和字典集请点赞关注收藏后评论区留言私信~~~
一、规则分词
规则分词核心内容是建立人工专家词典库,通过将语句切分出的单词串与专家词典库中的所有词语进行逐一匹配,匹配成功则进行对象词语切分,否则通过增加或者减少一个字继续比较,直到剩下一个单字终止匹配操作。
按照匹配算法和查找方向,可以分为正向最大匹配法、逆向最大匹配法与双向匹配法三种方法。
二、正向最大匹配法
正向最大匹配(Maximum Match Method :MMM) 算法操作方向为从左至右,无法匹配时删除最右边字符,其主要步骤:
(1)确定专家词典中所有词汇的最长词语的长度N;
(2)选取处理对象字符串从左至右的前N个字符,以此为匹配字段查找专家词典,如果刚好找到字符个数和字符内容都一致的词语,则匹配操作成功,按照该匹配字段对对象字符串进行切分;
(3)若词典中无法找到完全一致的词,则匹配操作失败,此时将匹配宇段中的最右边一个字符删除;
(4)对剩下的字符串重新进行匹配处理,如此循环操作直到所有字符匹配成功或者剩余字符串的长度为零为止。若匹配宇段长度为1,表示该单字符无法再切分。
下面是基于正向最大匹配算法的实例
匹配对象字符串:中国当代大学生的实践创新能力已经取得了巨大的进步
专家字典库:{中国,当代,吗,大学生,创新,