统计学习方法-逻辑斯蒂回归与最大熵模型
1、前言
逻辑斯蒂回归(logistic regression)是统计学习中经典的分类方法。最大熵是概率模型学习的准则,将其推广到分类问题得到最大熵模型(maximum entropy model)。逻辑斯蒂回归模型与最大熵模型都属于对数线性模型。
2、逻辑斯蒂回归模型
2.1 逻辑斯蒂分布
设X是连续随机变量,X服从逻辑斯蒂分布是指X具有下列分布函数和密度函数:
F
(
X
)
=
P
(
X
≤
x
)
=
1
1
+
e
−
(
x
−
μ
)
γ
F(X)=P(X\leq x)=\frac{1}{1+e^{\frac{-(x-\mu)}{\gamma}}}
F(X)=P(X≤x)=1+eγ−(x−μ)1
f
(
x
)
=
F
′
(
x
)
=
e
−
(
x
−
μ
)
γ
γ
(
1
+
e
−
(
x
−
μ
)
γ
)
2
f(x)=F'(x)=\frac{e^{\frac{-(x-\mu)}{\gamma}}}{\gamma(1+e^{\frac{-(x-\mu)}{\gamma}})^2}
f(x)=F′(x)=γ(1+eγ−(x−μ))2eγ−(x−μ)
分布函数f(x)以点(
μ
\mu
μ,1/2)为中心对称,Y值越小,曲线在中心附近增长地越快。
2.2 二项逻辑斯蒂回归模型
其模型是如下的条件概率分布:
P
(
Y
=
1
∣
x
)
=
e
x
p
(
w
∗
x
)
1
+
e
x
p
(
w
∗
x
)
P(Y=1|x)=\frac{exp(w*x)}{1+exp(w*x)}
P(Y=1∣x)=1+exp(w∗x)exp(w∗x)
P
(
Y
=
0
∣
x
)
=
1
)
1
+
e
x
p
(
w
∗
x
)
P(Y=0|x)=\frac{1)}{1+exp(w*x)}
P(Y=0∣x)=1+exp(w∗x)1)
计算出两个条件概率值的大小,将x分到概率值较大的那一类。
如果事件发生的概率为p,则该事件发生的**几率(odds)**是指该事件发生的概率与该事件不发生的概率的比值。
该事件的对数几率(log odds)或logit函数是
l
o
g
i
t
(
p
)
=
log
p
1
−
p
logit(p)=\log{\frac{p}{1-p}}
logit(p)=log1−pp
对逻辑斯蒂回归而言
log
P
(
Y
=
1
∣
x
)
1
−
P
(
Y
=
1
∣
x
)
=
w
∗
x
\log{\frac{P(Y=1|x)}{1-P(Y=1|x)}}=w*x
log1−P(Y=1∣x)P(Y=1∣x)=w∗x
也就是说,输出Y=1的对数几率是输入x的线性函数,线性函数值越接近正无穷,概率值越接近1,反之越接近0.
2.3 模型参数估计
可以使用极大似然估计法估计模型参数w。
2.4 多项逻辑斯蒂回归
设离散型随机变量Y的取值集合是{1,2,K},那么多项逻辑斯蒂回归模型是
P
(
Y
=
k
∣
x
)
=
e
x
p
(
w
k
∗
x
)
1
+
∑
k
=
1
K
−
1
e
x
p
(
w
k
∗
x
)
P(Y=k|x)=\frac{exp(w_k*x)}{1+\sum_{k=1}^{K-1}{exp(w_k*x)}}
P(Y=k∣x)=1+∑k=1K−1exp(wk∗x)exp(wk∗x)
3、最大熵模型
3.1 最大熵原理
学习概率模型时,在所有可能的概率模型中,熵最大的模型是最好的模型,直观的,最大熵原理也可以表述为在满足约束条件的模型集合中选取熵最大的模型。
3.2 最大熵模型
假设满足所有约束条件的模型集合为
C
≡
P
∈
p
∣
E
p
(
f
i
)
=
E
p
ˇ
(
f
i
)
C\equiv {P \in p|E_p(f_i)=E_{\check{p}}(f_i)}
C≡P∈p∣Ep(fi)=Epˇ(fi)
定义在条件概率分布P(Y|X)上的条件熵为
H
(
P
)
=
−
∑
x
,
y
P
ˇ
(
x
)
P
(
y
∣
x
)
log
P
(
y
∣
x
)
H(P)=-\sum_{x,y}{\check{P}(x)P(y|x)\log{P(y|x)}}
H(P)=−x,y∑Pˇ(x)P(y∣x)logP(y∣x)
则模型集合C中条件熵H§最大的模型称为最大熵模型。
实际求解中,引进拉格朗日乘子,最终得出最大熵模型:
P
w
(
y
∣
x
)
=
e
x
p
(
∑
i
=
1
n
w
i
f
i
(
x
,
y
)
)
Z
w
(
x
)
P_w(y|x)=\frac{exp(\sum_{i=1}^n{w_if_i(x,y)})}{Z_w(x)}
Pw(y∣x)=Zw(x)exp(∑i=1nwifi(x,y))
Z
w
(
x
)
=
∑
y
e
x
p
(
∑
i
=
1
n
w
i
f
i
(
x
,
y
)
)
Z_w(x)=\sum_{y}{exp(\sum_{i=1}^n{w_if_i(x,y)})}
Zw(x)=y∑exp(i=1∑nwifi(x,y))
Z
w
(
x
)
Z_w(x)
Zw(x)称为规范化因子;
f
i
(
x
,
y
)
f_i(x,y)
fi(x,y)是特征函数;
w
i
w_i
wi是特征权值,
P
w
P_w
Pw就是最大熵模型。
最大熵模型的学习就是求解最大熵模型的过程,等价于约束最优化问题。
对偶函数等价于对数似然函数,对偶函数极大化等价于最大熵模型的极大似然估计。
最大熵模型与逻辑斯蒂回归模型有类似的形式,他们又称为对数线性模型,模型学习就是在给定训练数据条件下对模型进行极大似然估计或正则化的极大似然估计。
4、算法
似然函数是光滑的凸函数,因此多种最优化方法都适用。
4.1 改进的迭代尺度法IIS
假设当前的参数向量是w,如果能找到一种方法 w → w + δ w\rightarrow w+\delta w→w+δ使对数似然函数变大,就可以重复使用这一方法,直到找到最大值。