1 逻辑斯蒂回归模型
1.1 逻辑斯蒂分布
定义 1.1 逻辑斯蒂分布
F
(
x
)
=
P
(
X
≤
x
)
=
1
1
+
e
−
(
x
−
u
)
/
r
F(x)=P(X\leq x)=\frac{1}{1+e^{-(x-u)/r}}
F(x)=P(X≤x)=1+e−(x−u)/r1
f
(
x
)
=
F
′
(
x
)
=
P
(
X
≤
x
)
=
e
−
(
x
−
u
)
/
r
γ
(
1
+
e
−
(
x
−
u
)
/
r
)
2
f(x)=F^{'}(x)=P(X\leq x)=\frac{e^{-(x-u)/r}}{\gamma(1+e^{-(x-u)/r})^2}
f(x)=F′(x)=P(X≤x)=γ(1+e−(x−u)/r)2e−(x−u)/r
u
u
u是位置参数,
γ
>
0
\gamma>0
γ>0是形状参数。
1.2 二项逻辑斯蒂回归模型
二项逻辑斯蒂回归模型是一种分类别模型,由条件概率
P
(
Y
∣
X
)
P(Y|X)
P(Y∣X)表示,形式为参数化的逻辑斯蒂分布。
定义 1.2 二项逻辑斯蒂回归模型
P
(
Y
=
1
∣
x
)
=
e
w
⋅
x
+
b
1
+
e
w
⋅
x
+
b
P(Y=1|x)=\frac{e^{w\cdot x+b}}{1+e^{w\cdot x+b}}
P(Y=1∣x)=1+ew⋅x+bew⋅x+b
P
(
Y
=
0
∣
x
)
=
1
1
+
e
w
⋅
x
+
b
P(Y=0|x)=\frac{1}{1+e^{w\cdot x+b}}
P(Y=0∣x)=1+ew⋅x+b1
w
,
b
w,b
w,b是参数,对于给定的输入
x
x
x,带入到上述的公式中,计算出
P
(
Y
=
1
∣
x
)
P(Y=1|x)
P(Y=1∣x),
P
(
Y
=
0
∣
x
)
P(Y=0|x)
P(Y=0∣x),将
x
x
x分配到概率较大的类中去。
几率:
p
1
−
p
\frac{p}{1-p}
1−pp(也就是一件事情发生的概率比上这件事不发生的概率)
得出结论:输入Y=1的对数几率是由输入x的线性表示的逻辑斯蒂回归模型。
1.3 模型参数估计
也就是用极大似然估计法估计一个w使得 P ( Y = 1 ∣ x ) P(Y=1|x) P(Y=1∣x)和 P ( Y = 0 ∣ x ) P(Y=0|x) P(Y=0∣x)最大,这样模型参数估计的问题就变成了对数似然函数为目标函数的最优化问题,逻辑斯蒂回归学习中通常采用的算法是梯度下降法和拟牛顿法。其中似然函数如下: L = Π i = 1 n [ π ( x i ) ] y i [ 1 − π ( x i ) ] 1 − y i L = \Pi_{i=1}^{n}[\pi(x_i)]^{y_i}[1-\pi(x_i)]^{1-y_i} L=Πi=1n[π(xi)]yi[1−π(xi)]1−yi
1.4 多项逻辑斯蒂回归
解决多类分类的问题
P
(
Y
=
k
∣
x
)
=
e
w
k
⋅
x
+
b
1
+
∑
k
=
1
K
−
1
e
w
k
⋅
x
+
b
P(Y=k|x)=\frac{e^{w_k\cdot x+b}}{1+\sum_{k=1}^{K-1}e^{w_k\cdot x+b}}
P(Y=k∣x)=1+∑k=1K−1ewk⋅x+bewk⋅x+b
P
(
Y
=
K
∣
x
)
=
1
1
+
∑
k
=
1
K
−
1
e
w
k
⋅
x
+
b
P(Y=K|x)=\frac{1}{1+\sum_{k=1}^{K-1}e^{w_k\cdot x+b}}
P(Y=K∣x)=1+∑k=1K−1ewk⋅x+b1
2 最大熵模型
2.1 最大熵原理
最大熵原理是概率模型学习的一个准则,最大熵原理认为,学习概率模型时在所有可能的概率模型分布中,熵最大的模型是最好的模型。也就是在满足约束条件的模型集合中,选择熵最大的模型。
当X服从均匀分布时,此时熵最大。最大熵原理通过熵的最大化来表示等可能性。
2.2 最大熵模型的定义(推导)
最大熵模型就是最大熵原理应用到分类。
定义 1.3最大熵模型
假设满足所有约束条件的模型集合为:
C
=
{
P
∈
P
∣
E
p
(
f
i
)
=
E
p
′
(
f
i
)
,
i
=
1
,
2
,
3
,
.
.
.
,
n
}
C = \lbrace P\in P|E_p(f_i) = E_{p^{'}}(f_i),i=1,2,3,...,n\rbrace
C={P∈P∣Ep(fi)=Ep′(fi),i=1,2,3,...,n}定义在条件概率分布
P
(
Y
∣
X
)
P(Y|X)
P(Y∣X)上的条件熵:
H
(
P
)
=
−
∑
x
,
y
P
′
(
x
)
P
(
y
∣
x
)
l
o
g
P
(
y
∣
x
)
H(P)=-\sum_{x,y}P^{'}(x)P(y|x)logP(y|x)
H(P)=−x,y∑P′(x)P(y∣x)logP(y∣x)则模型集合C中条件熵最大的模型就是最优模型。
特征函数为什么不是简单的计数函数的解析
2.3 最大熵模型的学习
最大熵模型的学习过程就是求解最大熵模型的过程,最大熵模型的学习可以形式化为约束最优化问题。
我们将约束化最有问题转换成无约束最优化的对偶问题,通过求解对偶问题来求解原始问题。
做法:引入拉格朗日乘子,构造拉格朗日函数。将原始的最优化问题表示成广义的拉格朗日极小极大问题(李航书的原话)。
m
i
n
x
θ
P
(
x
)
=
m
i
n
x
m
a
x
α
,
β
;
α
i
≤
0
(
L
(
x
,
α
,
β
)
)
min_x\theta_P(x)=min_xmax_{\alpha,\beta;\alpha_i\leq0}(L(x,\alpha,\beta))
minxθP(x)=minxmaxα,β;αi≤0(L(x,α,β))
凸函数和凸优化
拉格朗日对偶性
2.4 极大似然估计
对偶函数的极大化等价于最大熵模型的极大似然估计。这样最大熵模型的学习问题就转换成了具体求解对数似然函数极大化或对偶函数极大化问题。
最大熵模型和逻辑斯蒂回归模型有类似的形式,它们又称为对数线性函数。模型学习就是在给定的训练数据下对模型进行极大似然估计和正则化的极大似然估计。