1. 极大似然估计在机器学习中的应用
- 在有监督学习中要求的是标签下的条件概率,极大似然学习的是概率分布
P
,可把
P 看作是条件概率,使用极大似然,得到概率模型
- 应用模型:最大熵模型
- 在无监督学习中,标签不知道,只能在推导中使用极大似然估计的过程
- 应用:EM算法(GMM模型)
2. 熵
熵是平均不确定性的独立,函数到值的映射(泛函)
1. 平均互信息量(衡量确定性):
I(X,Y)=H(X)−H(X|Y)=H(Y)−H(Y|X)
2. 交叉熵(不确定性,非对称):
H(X;Y)=H(X)+KL(X||Y)=I(X,Y)+H(X|Y)+KL(X||Y)
3. KL散度(不确定性,非对称):
KL(X||Y)=H(X;Y)−H(X)
4. 条件熵和KL散度最小时,平均互信息量最大
3. 最大熵模型推导
- 最大熵原理:承认已知事物,对未知事物不做任何假设,没有偏见,最大熵存在且唯一(凸优化)
- 模型一般形式(在约束条件下求条件熵最大化)
minP∈C−H(P)=−H(Y|X)=∑x,yP(x)P(y|x)logP(y|x)s.t.Ep(fi)=Ep¯(fi)∑yP(y|x)=1其中 Ep¯(fi)=∑x,yp(x,y)fi(x,y) , fi 为特征,当 x,y 满足特征条件, fi(x,y)=1 ,否则为0 - 写成拉格朗日形式:
L(P,w)=−H(P)+w0(1−∑yP(y|x))+∑i=1nwi(Ep¯(fi)−Ep(fi))=∑x,yP¯(x)P(y|x)logP(y|x)+w0(1−∑yP(y|x))+∑j=1nwi(∑x,yP¯(x,y)fi(x,y)−∑x,yP¯(x)P(y|x)fi(x,y)) - 原问题和对偶问题:
原问题:minP∈CmaxwL(P,w)对偶问题:maxwminP∈CL(P,w)求对偶函数:φ=minP∈CL(P,w)=L(Pw,w) - 对
P(y|x)
求偏导数,令其为0,得到条件概率分布
Pw(y|x)
,之后求
w
,得到最大熵模型
P(y|x)=exp(∑i=1nwifi(x,y)+w0−1)=exp(∑wifi(x,y))exp(1−w0) 归一化:Pw(y|x)=1Zexp(∑wifi(x,y))Z=∑yexp(∑wifi(x,y)) - 最大熵模型中的 φ(w) 等价于最大熵模型的极大似然估计,两者可以相互证明其有效性
- 最大熵模型的优缺点
优点:
(1)建模时,试验者只需集中精力选择特征,而不需要花费精力考虑如何使用这些特征。
(2)特征选择灵活,且不需要额外的独立假定或者内在约束。
(3)模型应用在不同领域时的可移植性强。
(4)可结合更丰富的信息。
缺点:
(1)时空开销大
(2)数据稀疏问题严重
(3)对语料库的依赖性较强 - 最大熵模型的应用
词性标注、短语识别、指代消解、语法分析、机器翻译、文本分类、问题回答、语言模型