《数学之美》第3章统计语言模型

最新推荐文章于 2024-04-29 15:22:57 发布

剑九黄

最新推荐文章于 2024-04-29 15:22:57 发布

阅读量1k

点赞数

文章标签：数学之美自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wangsiji_buaa/article/details/80043767

版权

1 用数学的方法描述语言规律

统计语言模型的产生的初衷是为了解决语音识别问题。

贾里尼克：一个句子是否合理，就看它的可能性大小如何。至于可能性就用概率来衡量。

马尔可夫：假设任意一个词出现的概率只同它前面的词有关。

2 统计语言模型的工程诀窍

2.1 高阶语言模型

N元模型：N - 1阶马尔可夫假设，假设文本中每个词和前面N-1个词有关，而与更前面的词无关。

二元模型：假设任意一个词出现的概率只同它前面的词有关。

一元模型：上下文无关的模型。

实际中应用最多的是N=3的三元模型，更高阶的模型就很少使用了。

为什么N取值一般都这么小呢？

N元模型的大小几乎是N的指数函数。当N从1到2，再从2到3，模型效果上升明显。而模型从3到4时，效果的提升就很不明显了。

三元或四元甚至更高阶的模型是不是就能覆盖所有的语言现象呢？

答案是否定的。在自然语言中，上下文之间的相关性可能跨度非常大，甚至可以从一个段落跨到另一个段落。这是马尔可夫假设的局限性，这时就要采用其他一些长程的依赖性。

2.2 模型的训练、零概率问题和平滑方法

使用语言模型需要知道模型中所有的条件概率，我们称之为模型的参数。通过对语料的统计，得到这些参数的过程称作模型的训练。

统计的可靠性问题。大数定理。

如何正确的训练一个语言模型？

一个直接的方法就是增加数据量。即使如此，仍然会遇到零概率或者统计量不足的问题。

大部分条件概率依然是零，这种模型称之为“不平滑”。在实际应用中，统计语言模型的零概率问题是无法回避的，必须解决。

训练统计语言模型的艺术在于解决好统计样本不足时概率估计问题。

古德-图灵估计的原理：对于没有看见的事件，我们不能认为它发生的概率就是零，因此我们从概率的总量中分配一个很小的比例给这些没有看见的事件。

一般对出现次数超过某个阈值的词，频率不下调，只对出现次数低于这个阈值的词，频率才下调，下调的频率总和给未出现的词。这样所有的词的概率都很平滑了。

2.3 语料的选取问题

模型训练的另一个重要问题就是训练数据，或者说语料库的选取。如果训练语料和模型应用的领域相脱节，那么模型的效果往往会大打折扣。

训练数据通常是越多越好。高阶模型因为参数多，需要的训练数据也相应会多很多。

训练语料的噪音高低也会对模型的效果产生一定的影响。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
《数学之美》第3章统计语言模型

1 用数学的方法描述语言规律统计语言模型的产生的初衷是为了解决语音识别问题。贾里尼克：一个句子是否合理，就看它的可能性大小如何。至于可能性就用概率来衡量。马尔可夫：假设任意一个词出现的概率只同它前面的词有关。2 统计语言模型的工程诀窍 2.1 高阶语言模型 N元模型：N - 1阶马尔可夫假设，假设文本中每个词和前面N-1个词有关，而与更前面的词无关。 ...
复制链接

扫一扫

剑九黄 CSDN认证博客专家 CSDN认证企业博客

码龄6年

122: 原创

18万+: 周排名

211万+: 总排名

27万+: 访问

: 等级

3841: 积分

92: 粉丝

107: 获赞

34: 评论

282: 收藏

私信

关注

热门文章

分类专栏

最新评论

《数学之美》第15章矩阵运算和文本处理中的两个分类问题
此心安处是吾乡^_^: 同意！
python检测英文拼写错误
潇洒佳爷: 请问如何将其在文本中进行修改呢？
Tensorflow—创建图
JpyJpy321: With tf.Session() as sess: 并不是启动默认的图，而是启动与C++进行通信的会话对象在执行sess.run(某个op)的时候，才会将构建好的计算图发送给C++ 严格意义上来说，启动默认的图，在代码执行的一开始，导入tensorflow时就启动了
Python 之 matplotlib (十五)主次坐标轴
jake484: 感谢！
python每隔2s执行一次hello world!
剑九黄回复年少无谓: 代码可移植呢？不考虑了吗～

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。