前言
要想从本质上深入理解自然语言处理、机器学习以及深度学习等算法,就需要你有强硬的数学基础,从原理到实践,知根知底。在此,我们只是一个入门级,所以我们暂且掌握以下数学基础,就ok。
概率论基础
概率
概率论是从随机试验中的事件到实数域的函数,用以表示事件发生的可能性。如果用P(A)作为事件A的概率,是实验的样本空间,则概率函数必须满足如下公理:
最大似然估计(likehood estimation)
如果一个试验的样本空间是,在相同情况下重复实验N次,观察到样本
的次数为
,则
的相对频率为:
。由于
,因此,
。当N越来越大时,相对频率
就越来越接近sk的概率P(sk)。事实上,
。因此,相对频率常被用作概率的估计值,这种概率值的估计方法称为最大似然估计值。
条件概率
如果A和B是样本空间上的两个事件,P(B)>0,那么在给定B时A的条件概率为P(A|B)为:
条件概率P(A|B)给出了在已知事件B发生的情况下,事件A的概率。一般地,P(A|B)不等于P(A),除非A和B相互独立,P(A|B)=P(A)。
全概率公式
设为试验E的样本空间,
为
的一组事件,且他们两两互斥,且每次试验中至少发生一个。即:
则称为样本空间
的一个划分。
设A为的一个划分,且P(Bi)>0(i=1,2,…,n),则全概率公式为:
贝叶斯法则(Bayes’ theorem)
如果A为样本空间的事件,
为
的一个划分,且P(A)>0,P(Bi)>0(i=1,2,…,n),那么
例2-2:假设某一种特殊的句法结构很少出现,平均大
约每100000个句子中才可能出现一次。我们开发了一个程
序来判断某个句子中是否存在这种特殊的句法结构。如果
句子中确实含有该特殊句法结构时,程序判断结果为“存在”
的概率为0.95。如果句子中实际上不存在该句法结构时,程
序错误地判断为“存在”的概率为0.005。那么,这个程序测
得句子含有该特殊句法结构的结论是正确的概率有多大?
二项式分布(binomial distribution)
当重复一个只有两种输出(假定为或A)的试验(伯努利试验), A在一次实验中发生的概率为p,现把
实验独立地重复n次。如果用X表示A在这n次实验中发生的次数,那么,X=0,1,… ,n。
考虑事件{X=i},如果这个事件发生,必须在这n次的原始记录中有i个A,n-i个。
A可以出现在n个位置中的任何一个位置,所以,结果序列有 种可能。由此,可以得出:
X所遵从的概率分布称为二项式分布并记为:X ~ B(n, p)。在自然语言处理中,我们常常以句子为处理单位。一般地,我们假设一个语句独立于它前面的其它语句,句子的概率分布近似地认为符合二项式分布。
贝叶斯决策理论(Bayesian decision theory)
假设研究的分类问题有c个类别,各类别的状态用wi表示,i = 1, 2, … , c;对应于各个类别wi出现的先验概率为P(wi);在特征空间已经观察到某一向量是d 维特征空间上的某一点,且条件概率密度函数
是已知的。那么,利用贝叶斯公式我们可以得到后验概率
基于最小错误率的贝叶斯决策规则为:
贝叶斯决策理论在词义消歧(word sense disambiguation)、文本分类等问题的研究中具有重要用途。
期望(exception)
期望值是一个随机变量所取的概率平均。设X为一个随机变量,其分布为若级数
绝对收敛,那么,随机变量X的数学期望或者概率平均值为:
方差(variance)
一个随机变量的方差描述的是该随机变量的偏离其期望值的程度。设X为一随机变量,其方差为: