第二章 数学基础
统计学、信息论
2.1 概率论基础
2.1.1 概率空间
概率论是预测事件发生的可能性大小的理论。
随机实验:其结果事先不能完全确定的实验
样本空间 = 基本事件空间:一个样本点或者基本事件的集合(连续或者离散)/ 所有可能实验结果的集合,空集是不可能事件的集合
自然语言处理中的具体问题,主要是离散样本空间,包含有限的样本
概率
2.1.2 条件概率和独立性
不考虑已知知识对概率值的影响,原有的概率值称为事件的先验概率,而加入某个知识后,原有的概率值将发生改变,称为事件的后验概率。
2.1.3 贝叶斯定理
计算概率时可以交换事件的次序。
2.1.4 随机变量
2.1.5 期望值和方差
2.1.6 符号表示
2.1.7 联合分布和条件分布
2.1.8 概率函数P的估计
2.1.9 标准分布
2.1.10 贝叶斯统计
贝叶斯更新
通过已知条件的不断变化和更新,来实时的改变某一事件的概率
通常一个人来商场购物的可能性是0.2,而来随便逛逛的是0.8,此时这个人是购物的概率是0.2;又已知来购物的人中有0.9的人询问,0.1的 不问,随便逛逛的0.3会来询问,0.7不问,那么询问并且购物的概率是0.18,询问并且不购物的可能性是0.24,不询问并且购物0.02,不询问并且不购物0.56,那么又已知这个人来询问了,则此人购物的可能性是0.18/(0.18+0.24)=3/7,这就是贝叶斯更新。
贝叶斯决策定理
判断哪个模型能够更好地适应数据,解释数据
已知男生23+的占100,女生23+的占50,男生有600人,女生400人
P(男)=0.6,P(女)=0.4,P(23+|女)=P(23-|女)=0.5
正向概率:随机选择一个学生,在23+的概率是多少?200/1000 = 0.2
P(23+)=P(23+|男)*P(男)+P(23+|女)*P(女)=1 * 0.6 + 0.5 * 0.4 = 0.8
逆向概率:这个人23+,判断是是女的概率是多少?200/800 = 0.25
P(女|23+)=P(女且23+)/P(23+)=P(23+|女)*P(女)/P(23+)=0.5 * 0.4 / 0.8 = 0.25
2.2 信息论基础
在香农之前,人们普遍认为传输速率和错误率成正比,速度越高,错误越多。但是香农证明只要数据传输速率低于信道容量C,即可获得我们期望的任意错误率。
2.2.1 熵
2.2.2 联合熵和条件熵
2.2.3 互信息
2.2.4 噪声信道模型
2.2.5 相对熵和Kullback-Leibler距离
2.2.6 交叉熵
熵可以用于衡量事件不确定性的大小,事件所透露出来的信息越多,其熵值会越小。熵的大小可以作为评估语言模型好坏的一个标准。
熵:对某个事件发生所持的“惊奇”程度,“惊奇”程度越大说明该事件的发生越出乎意料
2.2.7 英语的熵
2.2.8 混乱度
在语音识别领域中,人们通常用混乱度而不是交叉熵来描述一个模型的好坏,