基于概率最大化的中文分词算法 Python

1 概述

汉语自动分词是把没有明显分界标志的字串切分为词串。包括:标点符号、数字、数学符号、各种 标记、人名、地名、机构名等未登录词的识别。本篇博客使用Python编程语言实现基于概率最大化的中文分词算法。

2 理论描述

基于概率的自动分词算法
(1)基本思想:选择概率最大的分词路径作为最优结果
(2)利用字与字间、词与词间的同现频率作为分词的依据, 可以没有建立好的词典。需要大规模的训练文本, 用来训练模型参数。
(3)优点:不受应用领域的限制;
(4) 缺点:训练文本的选择将影响分词结果。

3 算法描述

(1)对一个待分词的字串S,按照从左到右的顺序取出全部候选词 W 1 W_1 W1, W 2 W_2 W2,…, W i W_i Wi, W n W_n Wn;
(2)计算每个候选词的概率值P( W i W_i Wi

  • 8
    点赞
  • 40
    收藏
    觉得还不错? 一键收藏
  • 5
    评论
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值