1、 概率论基本概念-概率;
2、 概率论基本概念-最大似然估计;
3、 概率论基本概念-条件概率(概率的乘法规则)
4、 概率论基本概念-贝叶斯法则(全概率公式)
例题:
一个多义词某一义项被使用的概率为1/100 000。
现有一程序判断该词在某个句子中是否使用了该义项。
如果句子中使用了该义项,程序判为“使用”的概率为0.95。
如果句子中没使用该义项,程序判为“使用”的概率为0.005。
问:该程序判断句子使用该词的这一义项的结论是正确的概率是多大?
设G:句子中使用该词的这一义项,T:程序判断句子使用该词的这一义项
P(G) = 1/100 0000 = 0.000 01
P(G’) = 1-P(G) = 0.999 99
P(T|G) = 0.95
P(T|G’) = 0.005
于是可得:
P(G|T) = [P(T|G)P(G)]/[P(T|G)P(G)+P(T|G’)P(G’)]≈0.002
5、 概率论基本概念-随机变量
6、 概率论基本概念-二项式分布B(n,p)
在NLP中,一般以句子为处理单位,为了简化问题的复杂性,通常假设一个句子的出现独立于它前面的其他语句,句子的概率分布近似地被认为符合二项式分布。
7、 概率论基本概念-联合概率分布和条件概率分布【看课本去】
8、 概率论基本概念-贝叶斯决策理论(统计方法处理模式分类问题的基本理论之一)
先验概率、后验概率
9、 概率论基本概念-期望和方差
期望值指随机变量所取值的概率平均。
例题:
某个网页主菜单上有6个关键词,每个关键词被点击的概率一样,过一段时间后,这6个关键词分别被点击1,2,…,6次。
那么,平均每个关键词被点击次数的期望值就是:
E(N) = SUM(t)*p(w) = (1+2+3…+6)*1/6 = 7/2
其中t为关键词被点击次数,p为关键词被点击概率;
一个随机变量的方差描述的是该随机变量的值偏离其期望值的程度。如果X为一随机变量,那么,其方差var(X)为:
var(X) = E((X-E(X))2) = E(X2) – E2(X)
X的标准差就是sqrt(var(X))
10、信息论基本概念-熵(entropy)
熵又称为自信息(self-information),可以视为描述一个随机变量的不确定性的数量。它表示信源X每发一个符号所提供的平均信息量。一个随机变量的熵越大,它的不确定性越大,那么,正确估计其值的可能性就越小。越不确定的随机变量越需要大的信息量用以确定其值。
例如:假设a、b、c、d、e、f这6个字符在某一简单语言中随机出现,每个字符出现的概率是:1/8,1/4,1/8,1/4,1/8,1/8。那么,每个字符的熵为:
H(P) = -SUM(P(x)*logP(x))
= -[4*1/8*log(1/8) + 2*1/4*log(1/4)]
= 5/2 bit
这个结果表明,我们可以设计一种编码,传输一个字符平均只需要2.5个bit:
字符:a b c d e f
编码:100 00 101 01 110 111
11、信息论基本概念-联合熵和条件熵
联合熵:描述一对随机变量平均所需要的信息量;
即:H(X,Y) = -SUM(p(x,y)*log(p(x,y)))
12、信息论基本概念-互信息
互信息是一个均衡非负的信息测度,I(X;Y)反映的是在知道了Y的值以后X的不确定性的减少量。可以理解为Y的值透露了多少关于X的信息量。
13、信息论基本概念-相对熵
相对熵又称KL差异、KL距离,是衡量相同事件空间中两个概率分布相对差距的测度。
14、信息论基本概念-交叉熵
交叉熵就是衡量估计模型与真实概率分布之间的差异情况。
15、信息论基本概念-困惑度
在设计语言模型时,我们通常用困惑度来代替交叉熵衡量语言模型的好坏。
语言模型设计的任务就是寻找困惑度最小的模型,使其最接近真实语言的情况。
16、信息论基本概念-噪声信道模型
17、支持向量机-线性分类
18、支持向量机-线性不可分
19、支持向量机-构造核函数