我只是一名搬运工,以下内容来自:刘建平Pinard:https://www.cnblogs.com/pinard/p/6093948.html
1. 背景
最大熵模型(maximum entropy model, MaxEnt)也是很典型的分类算法了,它和逻辑回归类似,都是属于对数线性分类模型。在损失函数优化的过程中,使用了和支持向量机类似的凸优化技术。而对熵的使用,让我们想起了决策树算法中的ID3和C4.5算法。理解了最大熵模型,对逻辑回归,支持向量机以及决策树算法都会加深理解。本文就对最大熵模型的原理做一个小结。
2. 熵和条件熵的回顾
在决策树算法原理(上)一文中,我们已经讲到了熵和条件熵的概念,这里我们对它们做一个简单的回顾。
熵度量了事物的不确定性,越不确定的事物,它的熵就越大。具体的,随机变量X的熵的表达式如下:
H
(
X
)
=
−
∑
i
=
1
n
p
i
l
o
g
p
i
H(X) = -\sum\limits_{i=1}^{n}p_i logp_i
H(X)=−i=1∑npilogpi
其中n代表X的n种不同的离散取值。而 p i p_i pi代表了X取值为i的概率,log为以2或者e为底的对数。
熟悉了一个变量X的熵,很容易推广到多个变量的联合熵,这里给出两个变量X和Y的联合熵表达式:
H
(
X
,
Y
)
=
−
∑
i
=
1
n
p
(
x
i
,
y
i
)
l
o
g
p
(
x
i
,
y
i
)
H(X,Y) = -\sum\limits_{i=1}^{n}p(x_i,y_i)logp(x_i,y_i)
H(X,Y)=−i=1∑np(xi,yi)logp(xi,yi)
有了联合熵,又可以得到条件熵的表达式H(Y|X),条件熵类似于条件概率,它度量了我们的Y在知道X以后剩下的不确定性。表达式如下:
H
(
Y
∣
X
)
=
−
∑
i
=
1
n
p
(
x
i
,
y
i
)
l
o
g
p
(
y
i
∣
x
i
)
=
∑
j
=
1
n
p
(
x
j
)
H
(
Y
∣
x
j
)
H(Y|X) = -\sum\limits_{i=1}^{n}p(x_i,y_i)logp(y_i|x_i) = \sum\limits_{j=1}^{n}p(x_j)H(Y|x_j)
H(Y∣X)=−i=1∑np(xi,yi)logp(yi∣xi)=j=1∑np(xj)H(Y∣xj)
用下面这个图很容易明白他们的关系。左边的椭圆代表H(X),右边的椭圆代表H(Y),中间重合的部分就是我们的互信息或者信息增益I(X,Y), 左边的椭圆去掉重合部分就是H(X|Y),右边的椭圆去掉重合部分就是H(Y|X)。两个椭圆的并就是H(X,Y)。
3. 最大熵模型的定义
最大熵模型假设分类模型是一个条件概率分布 P ( Y ∣ X ) P(Y|X) P(Y∣X),X为特征,Y为输出。
给定一个训练集 ( x ( 1 ) , y ( 1 ) ) , ( x ( 2 ) , y ( 2 ) ) , ⋯   , ( x ( m ) , y ( m ) ) {(x^{(1)},y^{(1)}), (x^{(2)},y^{(2)}), \cdots,(x^{(m)},y^{(m)})} (x(1),y(1)),(x(2),y(2)),⋯,(x(m),y(m)),其中x为n维特征向量,y为类别输出。我们的目标就是用最大熵模型选择一个最好的分类类型。
在给定训练集的情况下,我们可以得到总体联合分布 P ( X , Y ) P(X,Y) P(X,Y)的经验分布 P ‾ ( X , Y ) \overline{P}(X,Y) P(X,Y),和边缘分布 P ( X ) P(X) P(X)的经验分布 P ‾ ( X ) \overline{P}(X) P(X)。 P ‾ ( X , Y ) \overline{P}(X,Y) P(X,Y)即为训练集中X,Y同时出现的次数除以样本总数m, P ‾ ( X ) \overline{P}(X) P(X)即为训练集中X出现的次数除以样本总数m。
用特征函数
f
(
x
,
y
)
f(x,y)
f(x,y)描述输入x和输出y之间的关系。定义为:
f
(
x
,
y
)
=
{
1
x
与
y
满
足
某
个
关
系
0
否
则
f(x,y)= \begin{cases} 1& {x与y满足某个关系} \\ 0& {否则} \end{cases}
f(x,y)={10x与y满足某个关系否则
可以认为只要出现在训练集中出现的 ( x ( i ) , y ( i ) ) (x^{(i)},y^{(i)}) (x(i),y(i)),其 f ( x ( i ) , y ( i ) ) = 1 f(x^{(i)},y^{(i)}) = 1 f(x(i),y(i))=1. 同一个训练样本可以有多个约束特征函数。
特征函数
f
(
x
,
y
)
f(x,y)
f(x,y)关于经验分布
P
‾
(
X
,
Y
)
\overline{P}(X,Y)
P(X,Y)的期望值,用
E
P
‾
(
f
)
E_{\overline{P}}(f)
EP(f)表示为:
E
P
‾
(
f
)
=
∑
x
,
y
P
‾
(
x
,
y
)
f
(
x
,
y
)
E_{\overline{P}}(f) = \sum\limits_{x,y}\overline{P}(x,y)f(x,y)
EP(f)=x,y∑P(x,y)f(x,y)
特征函数
f
(
x
,
y
)
f(x,y)
f(x,y)关于条件分布
P
(
Y
∣
X
)
P(Y|X)
P(Y∣X)和经验分布
P
‾
(
X
)
\overline{P}(X)
P(X)的期望值,用
E
P
(
f
)
E_{P}(f)
EP(f)表示为:
E
P
(
f
)
=
∑
x
,
y
P
‾
(
x
)
P
(
y
∣
x
)
f
(
x
,
y
)
E_{P}(f) = \sum\limits_{x,y}\overline{P}(x)P(y|x)f(x,y)
EP(f)=x,y∑P(x)P(y∣x)f(x,y)
如果模型可以从训练集中学习,我们就可以假设这两个期望相等。即:
E
P
‾
(
f
)
=
E
P
(
f
)
E_{\overline{P}}(f) = E_{P}(f)
EP(f)=EP(f)
上式就是最大熵模型学习的约束条件,假如我们有M个特征函数 f i ( x , y ) ( i = 1 , 2... , M ) f_i(x,y) (i=1,2...,M) fi(x,y)(i=1,2...,M)就有M个约束条件。可以理解为我们如果训练集里有m个样本,就有和这m个样本对应的M个约束条件。
这样我们就得到了最大熵模型的定义如下:
假设满足所有约束条件的模型集合为:
E
P
‾
(
f
i
)
=
E
P
(
f
i
)
(
i
=
1
,
2
,
.
.
.
M
)
E_{\overline{P}}(f_i) = E_{P}(f_i) (i=1,2,...M)
EP(fi)=EP(fi)(i=1,2,...M)
定义在条件概率分布
P
(
Y
∣
X
)
P(Y|X)
P(Y∣X)上的条件熵为:
H
(
P
)
=
−
∑
x
,
y
P
‾
(
x
)
P
(
y
∣
x
)
l
o
g
P
(
y
∣
x
)
H(P) = -\sum\limits_{x,y}\overline{P}(x)P(y|x)logP(y|x)
H(P)=−x,y∑P(x)P(y∣x)logP(y∣x)
我们的目标是得到使 H ( P ) H(P) H(P)最大的时候对应的 P ( y ∣ x ) P(y|x) P(y∣x),这里可以对 H ( P ) H(P) H(P)加了个负号求极小值,这样做的目的是为了使 − H ( P ) -H(P) −H(P)为凸函数,方便使用凸优化的方法来求极值。
4 . 最大熵模型损失函数的优化
在上一节我们已经得到了最大熵模型的函数
H
(
P
)
H(P)
H(P)。它的损失函数
−
H
(
P
)
-H(P)
−H(P)定义为:
m
i
n
⎵
P
−
H
(
P
)
=
∑
x
,
y
P
‾
(
x
)
P
(
y
∣
x
)
l
o
g
P
(
y
∣
x
)
\underbrace{ min }_{P} -H(P) = \sum\limits_{x,y}\overline{P}(x)P(y|x)logP(y|x)
P
min−H(P)=x,y∑P(x)P(y∣x)logP(y∣x)
约束条件为:
E
P
‾
(
f
i
)
−
E
P
(
f
i
)
=
0
(
i
=
1
,
2
,
.
.
.
M
)
E_{\overline{P}}(f_i) - E_{P}(f_i) = 0 (i=1,2,...M)
EP(fi)−EP(fi)=0(i=1,2,...M)
∑
y
P
(
y
∣
x
)
=
1
\sum\limits_yP(y|x) = 1
y∑P(y∣x)=1
由于它是一个凸函数,同时对应的约束条件为仿射函数,根据凸优化理论,这个优化问题可以用拉格朗日函数将其转化为无约束优化函数,此时损失函数对应的拉格朗日函数
L
(
P
,
w
)
L(P,w)
L(P,w)定义为:
L
(
P
,
w
)
≡
−
H
(
P
)
+
w
0
(
1
−
∑
y
P
(
y
∣
x
)
)
+
∑
i
=
1
M
w
i
(
E
P
‾
(
f
i
)
−
E
P
(
f
i
)
)
L(P,w) \equiv -H(P) + w_0(1 - \sum\limits_yP(y|x)) + \sum\limits_{i=1}^{M}w_i(E_{\overline{P}}(f_i) - E_{P}(f_i))
L(P,w)≡−H(P)+w0(1−y∑P(y∣x))+i=1∑Mwi(EP(fi)−EP(fi))
其中 w i ( i = 1 , 2 , . . . m ) w_i(i=1,2,...m) wi(i=1,2,...m)为拉格朗日乘子。如果大家也学习过支持向量机,就会发现这里用到的凸优化理论是一样的,接着用到了拉格朗日对偶也一样。
我们的拉格朗日函数,即为凸优化的原始问题:
m
i
n
⎵
P
m
a
x
⎵
w
L
(
P
,
w
)
\underbrace{min }_{P} \underbrace{max }_{w}L(P, w)
P
minw
maxL(P,w)
其对应的拉格朗日对偶问题为:
m
a
x
⎵
w
m
i
n
⎵
P
L
(
P
,
w
)
\underbrace{max}_{w} \underbrace{min }_{P}L(P, w)
w
maxP
minL(P,w)
由于原始问题满足凸优化理论中的KKT条件,因此原始问题的解和对偶问题的解是一致的。这样我们的损失函数的优化变成了拉格朗日对偶问题的优化。
求解对偶问题的第一步就是求
m
i
n
⎵
P
L
(
P
,
w
)
\underbrace{min }_{P}L(P, w)
P
minL(P,w), 这可以通过求导得到。这样得到的
m
i
n
⎵
P
L
(
P
,
w
)
\underbrace{min }_{P}L(P, w)
P
minL(P,w)是关于w的函数。记为:
ψ
(
w
)
=
m
i
n
⎵
P
L
(
P
,
w
)
=
L
(
P
w
,
w
)
\psi(w) = \underbrace{min }_{P}L(P, w) = L(P_w, w)
ψ(w)=P
minL(P,w)=L(Pw,w)
ψ
(
w
)
\psi(w)
ψ(w)即为对偶函数,将其解记为:
P
w
=
a
r
g
m
i
n
⎵
P
L
(
P
,
w
)
=
P
w
(
y
∣
x
)
P_w = arg \underbrace{min }_{P}L(P, w) = P_w(y|x)
Pw=argP
minL(P,w)=Pw(y∣x)
具体的是求
L
(
P
,
w
)
L(P, w)
L(P,w)关于
P
(
y
∣
x
)
P(y|x)
P(y∣x)的偏导数:
∂
L
(
P
,
w
)
∂
P
(
y
∣
x
)
=
∑
x
,
y
P
‾
(
x
)
(
l
o
g
P
(
y
∣
x
)
+
1
)
−
∑
y
w
0
−
∑
x
,
y
(
P
‾
(
x
)
∑
i
=
1
M
w
i
f
i
(
x
,
y
)
)
\frac{\partial L(P, w)}{\partial P(y|x)} = \sum\limits_{x,y}\overline{P}(x)(logP(y|x) +1) - \sum\limits_yw_0 - \sum\limits_{x,y}(\overline{P}(x)\sum\limits_{i=1}^{M}w_if_i(x,y))
∂P(y∣x)∂L(P,w)=x,y∑P(x)(logP(y∣x)+1)−y∑w0−x,y∑(P(x)i=1∑Mwifi(x,y))
=
∑
x
,
y
P
‾
(
x
)
(
l
o
g
P
(
y
∣
x
)
+
1
−
w
0
−
∑
i
=
1
M
w
i
f
i
(
x
,
y
)
)
= \sum\limits_{x,y}\overline{P}(x)(logP(y|x) +1- w_0 -\sum\limits_{i=1}^{M}w_if_i(x,y))
=x,y∑P(x)(logP(y∣x)+1−w0−i=1∑Mwifi(x,y))
令偏导数为0,可以解出
P
(
y
∣
x
)
P(y|x)
P(y∣x)关于
w
w
w的表达式如下:
P
(
y
∣
x
)
=
e
x
p
(
∑
i
=
1
M
w
i
f
i
(
x
,
y
)
+
w
0
−
1
)
=
e
x
p
(
∑
i
=
1
M
w
i
f
i
(
x
,
y
)
)
e
x
p
(
1
−
w
0
)
P(y|x) = exp(\sum\limits_{i=1}^{M}w_if_i(x,y) +w_0 -1) = \frac{exp(\sum\limits_{i=1}^{M}w_if_i(x,y))}{exp(1-w_0)}
P(y∣x)=exp(i=1∑Mwifi(x,y)+w0−1)=exp(1−w0)exp(i=1∑Mwifi(x,y))
由于
∑
y
P
(
y
∣
x
)
=
1
\sum\limits_yP(y|x) = 1
y∑P(y∣x)=1,可以得到
P
w
(
y
∣
x
)
P_w(y|x)
Pw(y∣x)的表达式如下:
P
w
(
y
∣
x
)
=
1
Z
w
(
x
)
e
x
p
(
∑
i
=
1
M
w
i
f
i
(
x
,
y
)
)
P_w(y|x) = \frac{1}{Z_w(x)}exp(\sum\limits_{i=1}^{M}w_if_i(x,y))
Pw(y∣x)=Zw(x)1exp(i=1∑Mwifi(x,y))
其中, Z w ( x ) Z_w(x) Zw(x)为规范化因子,定义为:
Z w ( x ) = ∑ y e x p ( ∑ i = 1 M w i f i ( x , y ) ) Z_w(x) = \sum\limits_yexp(\sum\limits_{i=1}^{M}w_if_i(x,y)) Zw(x)=y∑exp(i=1∑Mwifi(x,y))
这样我们就得出了 P ( y ∣ x ) P(y|x) P(y∣x)和 w w w的关系,从而可以把对偶函数 ψ ( w ) \psi(w) ψ(w)里面的所有的 P ( y ∣ x ) P(y|x) P(y∣x)替换成用 w w w表示,这样对偶函数 ψ ( w ) \psi(w) ψ(w)就是全部用 w w w表示了。接着我们对 ψ ( w ) \psi(w) ψ(w)求极大化,就可以得到极大化时对应的w向量的取值,带入 P ( y ∣ x ) P(y|x) P(y∣x)和 w w w的关系式, 从而也可以得到 P ( y ∣ x ) P(y|x) P(y∣x)的最终结果。
对 ψ ( w ) \psi(w) ψ(w)求极大化,由于它是连续可导的,所以优化方法有很多种,比如梯度下降法,牛顿法,拟牛顿法都可以。对于最大熵模型还有一种专用的优化方法,叫做改进的迭代尺度法(improved iterative scaling, IIS)。
IIS也是启发式方法,它假设当前的参数向量是
w
w
w,我们希望找到一个新的参数向量
w
+
δ
w+\delta
w+δ,使得对偶函数
ψ
(
w
)
\psi(w)
ψ(w)增大。如果能找到这样的方法,就可以重复使用这种方法,直到找到对偶函数的最大值。
IIS使用的方法是找到
ψ
(
w
+
δ
)
−
ψ
(
w
)
\psi(w + \delta) - \psi(w)
ψ(w+δ)−ψ(w)的一个下界
B
(
w
∣
δ
)
B(w|\delta)
B(w∣δ),通过对
B
(
w
∣
δ
)
B(w|\delta)
B(w∣δ)极小化来得到对应的
δ
\delta
δ的值,进而来迭代求解
w
w
w。对于
B
(
w
∣
δ
)
B(w|\delta)
B(w∣δ),它的极小化是通过对
δ
\delta
δ求偏导数而得到的。
由于IIS一般只用于最大熵模型,适用范围不广泛,这里就不详述算法过程了,感兴趣的朋友可以直接参考IIS的论文The improved iterative scaling algorithm: A gentle introduction。
5. 最大熵模型小结
最大熵模型在分类方法里算是比较优的模型,但是由于它的约束函数的数目一般来说会随着样本量的增大而增大,导致样本量很大的时候,对偶函数优化求解的迭代过程非常慢,scikit-learn甚至都没有最大熵模型对应的类库。但是理解它仍然很有意义,尤其是它和很多分类方法都有千丝万缕的联系。
惯例,我们总结下最大熵模型作为分类方法的优缺点:
最大熵模型的优点有:
a ) 最大熵统计模型获得的是所有满足约束条件的模型中信息熵极大的模型,作为经典的分类模型时准确率较高。
b ) 可以灵活地设置约束条件,通过约束条件的多少可以调节模型对未知数据的适应度和对已知数据的拟合程度
最大熵模型的缺点有:
a ) 由于约束函数数量和样本数目有关系,导致迭代过程计算量巨大,实际应用比较难。
(欢迎转载,转载请注明出处 刘建平Pinard:https://www.cnblogs.com/pinard/p/6093948.html)