《数学之美》总结(第1章~第3章)

西单小六

于 2017-02-22 22:52:16 发布

阅读量458

点赞数

分类专栏：机器学习文章标签：自然语言处理机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010497711/article/details/56512091

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

第一章文字和语言 vs 数学和信息

本章主要介绍了各种概念，属于基础知识预备的角色，没有什么好说的，虽然没什么所谓的干货，但知识量也不少。

第二章自然语言处理——从规则到统计

本章提出了从规则到统计的自然语言处理的发展历史，从而引出了数学在自然语言处理中的重要地位。

第三章统计语言模型

3.1 二元模型

对于给定的一个句子，我们如何判断这个句子能不能称之为一个“句子”呢，为了解决这个问题，科学家提出了各种方法。

如基于规则的，通过一定的规则判断所给的句子是否符合已有规则，这种方式简单，但并不灵活，一旦出现新的句型，就要对现有的语言规则库进行修改，而且自然语言表达方式灵活，我们不可能穷尽所有的规则。

为了解决这个问题，贾里尼克提出了一个简单粗暴但又行之有效的解决方案，他认为，“一个句子是否合理，就看看它的可能性大小如何。”就这样，一个复杂的自然语言处理问题就转化为概率问题。

假设 $S$ 为给定的某一条句子由 $w_1、w_2、w_3、……、w_n$ ( $w_i$ 表示第 $i$ 个单词或词汇)组成，即 $S=w_1,w_2,w_3,……,w_n$ ，要确定 $P(S)$ 的值，根据概率公式可知

P (S) = P (w 1, w 2, w 3, \dots \dots, w n)

$P(S)=P(w_1,w_2,w_3,……,w_n)$
再根据条件概率公式，我们可以知道

P (w 1, w 2, w 3, \dots \dots, w n) = P (w 1) * P (w 2 | w 1) * P (w 3 | w 1, w 2) * \dots * P (w n | w 1, w 2, \dots, w n - 1)

$P(w_1,w_2,w_3,……,w_n)=P(w_1)*P(w_2|w_1)*P(w_3|w_1,w_2)*…*P(w_n|w_1,w_2,…,w_{n-1})$
其中

P(wi|w1,w2,…,wi−1) $P(w_i|w_1,w_2,…,w_{i-1})$ 在第

1 $1$ 个到第

i−1 $i-1$ 个单词出现的情况下，第

i $i$ 个单词出现的概率。
根据我们学过的概率论知识可以知道

P(wn|w1,w2,…,wn) $P(w_n|w_1,w_2,…,w_n)$ 是难以计算的。以目前的计算机的计算能力，如果采用这个公式对语言进行处理，那将会是一件非常尴尬的事情。
为了简化计算问题，在效率和准确度之间找到一个平衡点，伟大的数学家提出了统计语言学中的 二元模型概念。通过二元模型，上述公式被简化为

P (w 1, w 2, w 3, \dots \dots, w n) = P (w 1) * P (w 2 | w 1) * P (w 3 | w 2) * \dots * P (w n | w n - 1)

$P(w_1,w_2,w_3,……,w_n)=P(w_1)*P(w_2|w_1)*P(w_3|w_2)*…*P(w_n|w_{n-1})$
接下来的任务就是对

P(wi|wi−1) $P(wi|wi-1)$ 进行计算了，根据条件概率公式

P (A | B) = P ( A , B ) P ( B )

$P(A|B)=\frac{P(A,B)}{P(B)}$ 可知

P (w i | w i - 1) = P ( w i , w i - 1 ) P ( w i - 1 )

$P(w_i|w_{i-1})=\frac{P(w_i,w_{i-1})}{P(w_{i-1})}$
通过对已有文本语料库的统计，根据大数定理，

P(wi|wi−1) $P(w_i|w_{i-1})$ 和

P(wi−1) $P(w_{i-1})$ 都可以计算出来。通过这样的逐一转化和问题简化，一个复杂的自然语言处理问题就变成了简单的概率论问题。
上述模型即为二元模型，所谓的

N $N$ 元模型即计算n个词汇一起出现的概率。书中指出，当

N $N$ 从

1 $1$ 到

2 $2$ ，再从

2 $2$ 到

3 $3$ 时，模型的准确度上升显著，但是当从

3 $3$ 到

4 $4$ 时，效果的提升就不那么显著了。

3.2 零概率问题和平滑方法

所谓了零概率问题就是由于语料库收集的不完备，导致某种情况下的概率出现了0，但在实际生活中却又可能出现这样的组合。为了改善这一问题，提出了平滑方法，目前已有的平滑方法有
- 加一法(方法过于机械，不灵活)
- 加法平滑法
- 古德-图灵(Good-Turing)法
- JM平滑法
- Kneser-Ney法
- Katz法
上述几种方法中，当数据量适中时，Kneser-Ney表现最好，JM平滑法次之。当数据量较大时，Good-Turing法表现最好，Katz次之。
在语料的选取上，并不是越多越好，而是有针对性的选取语料，专门的领域选择专门的语料，例如用《人民日报》的语料库对搜索引擎进行训练，得到的概率模型肯定不是最好的。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。