概率语言模型的分词方法

最新推荐文章于 2022-03-26 10:55:01 发布

VIP文章 nowacoder

最新推荐文章于 2022-03-26 10:55:01 发布

阅读量1.7k

点赞数 2

分类专栏：机器学习自然语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yuih344/article/details/78996396

版权

概率语言模型的分词方法

从统计思想的角度来看，分词问题的输入是一个字串C=C1,C2,……,Cn，输出是一个词串S=W1,W2,……,Wm，其中m<=n。对于一个特定的字符串C，会有多个切分方案S对应，分词的任务就是在这些S中找出概率最大的一个切分方案，也就是对输入字符串切分出最有可能的词序列。

例如对于输入字符串C"有意见分歧"，有S1和S2两种切分可能。

S1：有/ 意见/ 分歧/

S2：有意/ 见/ 分歧/

计算条件概率P(S1|C)和P(S2|C)，然后采用概率大的值对应的切分方案。根据贝叶斯公式，有。

其中P(C)是字符串在语料库中出现的概率，只是一个用来归一化的固定值。从词串恢复到汉字串的概率只有唯一的一种方式，所以P(C|S)=1。因此，比较P(S1|C)和P(S2|C)的大小变成比较P(S1)和P(S2)的大小。

概率语言模型分词的任务是：在全切分所得的所有结果中求某个切分方案S，使得P(S)最大。那么，如何来表示P(S)呢？为了容易实现，假设每个词之间的概率是上下文无关的，则：

最低0.47元/天解锁文章

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
概率语言模型的分词方法

概率语言模型的分词方法从统计思想的角度来看，分词问题的输入是一个字串C=C1,C2,……,Cn，输出是一个词串S=W1,W2,……,Wm，其中m 例如对于输入字符串C"有意见分歧"，有S1和S2两种切分可能。S1：有/ 意见/ 分歧/S2：有意/ 见/ 分歧/计算条件概率P(S1|C)和P(S2|C)，然后采用概率大的值对应的切分方案。根
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。