概率最大分词方法

写在前面:讲的并不好,多半是看不懂的,如果想来搞懂的话,可以关了…


基本思想

选择概率最大的分词路径作为最优结果

有句子S,分词所形成的词串有W1,W2,…,Wn,目标:max(P(W1|s), P(W2|s), …P(Wn|s)),原理贝叶斯公式和独立性假设,独立性假设:P(W|S) = P(W)

具体步骤

例句:结合成分子时

1.对一个待分词的字串S,按照从左往右的顺寻取出全部候选词w1,w2,…wn。
对应例子:从左往右,给每个字标号,1结2合3成4分5子6时,从1开始,候选词有结,结合,结合成不是,那么到2,候选词可以有合,合成,合成分不是,那么到3,候选词有成,成分,成分子不是,那么到4,候选词有分,分子,分子时不是,到5,子,子时不是,到6,时。
候选词列表如下:

结合

合成

成分

分子

2.计算每个候选词的概率
对应例子就是:依次计算P(结),P(结合),P(合)…到最后P(时),算法就是计算词频,除以总词数

3.记录每个候选词的左邻词
对应例子
结,没有左邻词下面用/代替
结合,/
合,合的左边时结,结在字典里面,所以左邻词有结
合成,同上,只有一个结
成,成左边合在字典里,结合也在字典里,所有左邻词有两个:合,结合
成分,合,结合
分,成,合成
分子,成,合成
子,分,成分
时,子,分子

4.计算每个候选词的累积概率,累计概率最大的作为最佳左邻词
在这里插入图片描述
5. 若当前词wn1,wn2,…wnn为词尾,其中累计概率最大作为终点词,若只有一个词尾,那么就直接把它作为终点词

6.从终点词开始,依次找它的最佳左邻词,直到左邻词为/结束

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值