1 概述
汉语自动分词是把没有明显分界标志的字串切分为词串。包括:标点符号、数字、数学符号、各种 标记、人名、地名、机构名等未登录词的识别。本篇博客使用Python编程语言实现基于概率最大化的中文分词算法。
2 理论描述
基于概率的自动分词算法
(1)基本思想:选择概率最大的分词路径作为最优结果
(2)利用字与字间、词与词间的同现频率作为分词的依据, 可以没有建立好的词典。需要大规模的训练文本, 用来训练模型参数。
(3)优点:不受应用领域的限制;
(4) 缺点:训练文本的选择将影响分词结果。
3 算法描述
(1)对一个待分词的字串S,按照从左到右的顺序取出全部候选词 W 1 W_1 W1, W 2 W_2 W2,…, W i W_i Wi, W n W_n Wn;
(2)计算每个候选词的概率值P( W i W_i Wi