统计语言模型学习笔记

最新推荐文章于 2024-07-17 19:00:00 发布

bokecai

最新推荐文章于 2024-07-17 19:00:00 发布

阅读量1.3k

点赞数 1

分类专栏：搜索引擎文章标签：机器学习读书笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/bokecai/article/details/44993757

版权

本文深入探讨统计语言模型的基本原理，包括高阶语言模型的介绍，详细阐述模型的训练过程，并具体说明了其在分词任务中的实际应用。

摘要由CSDN通过智能技术生成

一、统计语言模型基本原理

一个句子是否合理，就看它出现的可能性大小如何。至于可能性就用概率来衡量

假设 S 表示某个句子，此句子有一连串按照特定顺序排列的词 w1, w2, ..., wn 组成，其中 n 表示词的个数。现在我们想知道 S 在文本中出现的可能性，用数学表示就是 S 的概率 P(S)。既然 S = w1, w2, w3, ..., wn，不妨把 P(S) 展开表示：

P(S) = p(w1, w2, w3, ..., wn) (3.1)

= p(w1) * p(w2 / w1) * p(w3 / w1, w2) * ... * p(wn / w1, w2, ..., wn-1) (3.2)

其中，p(wi) 表示 wi 在文本中出现的概率，p(wi / wi-1) 表示在已经 wi-1 出现的条件下，wi 紧跟着出现的概率。

从计算上来看，第一个词的概率 p(w1) 很容易计算，第二个词的条件概率 p(w2 / w1) 计算也不算太麻烦，第三个词的条件概率 p(w3 / w1, w2) 计算已经很难了，因为三个词任意组合太多了，到了最后一个词 wn 的条件概率 p(wn / w1, w2, ..., wn-1) 的可能性太多，无法估算。

为了解决这个问题，俄罗斯的数学家马尔科夫做了一个假设，假设任意一个词 wi 出现的概率只和它前面的词 wi-1 有关。于是，问题就变得很简单了，现在 S 出现的概率为：

P(S) = p(w1) * p(w2 / w1) * p(w3 / w2) * ... * p(wn / wn-1) (3.3)

公式 3.3 对应的统计语言模型是二元模型 (bigram model).

接下来就是如何估计条件概率 p(wi / wi-1)，根据它的定义：

最低0.47元/天解锁文章

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
统计语言模型学习笔记

一、统计语言模型基本原理一个句子是否合理，就看它出现的可能性大小如何。至于可能性就用概率来衡量假设 S 表示某个句子，此句子有一连串按照特定顺序排列的词 w1, w2, ..., wn 组成，其中 n 表示词的个数。现在我们想知道 S 在文本中出现的可能性，用数学表示就是 S 的概率 P(S)。既然 S = w1, w2, w3, ..., wn，不妨把 P(S) 展开表示：
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。