分词
规则分词
维护词典 =》用语句中字符串与词典进行比较,找到则切分,否则不切分。
- 正向最大匹配法(Maximum Match Method,MM法);
- 逆向最大匹配法(Reverse Maximum Match Method,RMM法)=》使用逆序词典,文档进行倒排处理;
- 双向最大匹配法(Bi-direction Matching Method);
统计分词
相连的字反复出现,认为它们可能组成的是一个词。
- 语言模型:为长度为m的字符串确定其概率分布P(w1,w2,…,wm),其中w1到wm依次表示各个词语;
<