概述
共同点:
都属于概率模型P(Y|X);
对数线性模型:lnP(Y|X)=wx;在logit里面时关于x的线性函数,在最大熵里是关于x的函数的线性函数。
区别:
(1)逻辑斯蒂回归:判别模型,x为自变量
(2)最大熵模型:生成模型,y和x都有随机性, 除了P(Y|X),样本中的经验分布:
P
‾
(
x
)
\overline{P}(x)
P(x)
逻辑斯蒂回归模型
二维逻辑斯蒂回归模型
l n P ( Y = 1 ∣ x ) 1 − P ( Y = 1 ∣ x ) = w ⋅ x + b ( 1 ) ln\frac{P(Y=1|x)}{1-P(Y=1|x)}=w\cdot x+b (1) ln1−P(Y=1∣x)P(Y=1∣x)=w⋅x+b(1)
P ( Y = 1 ∣ x ) = e w ⋅ x + b 1 + e w ⋅ x + b ( 2 ) P(Y=1|x)=\frac{e^{w\cdot x+b}}{1+e^{w\cdot x+b}}(2) P(Y=1∣x)=1+ew⋅x+bew⋅x+b(2)
注:对于输入x,输出y∈[0,1]的二分类问题,Y取1的概率
P
(
Y
=
1
∣
x
)
=
f
(
x
)
∈
[
0
,
1
]
P(Y=1|x)=f(x)∈[0,1]
P(Y=1∣x)=f(x)∈[0,1]
把概率属于[0,1]的模型对应到了属于(-∞,+∞)的线性模型
l
o
g
i
t
(
f
(
x
)
)
=
l
n
P
(
Y
=
1
∣
x
)
1
−
P
(
Y
=
1
∣
x
)
=
l
n
f
(
x
)
1
−
f
(
x
)
=
w
⋅
x
+
b
(
3
)
logit(f(x))=ln\frac{P(Y=1|x)}{1-P(Y=1|x)}=ln\frac{f(x)}{1-f(x)}=w\cdot x+b(3)
logit(f(x))=ln1−P(Y=1∣x)P(Y=1∣x)=ln1−f(x)f(x)=w⋅x+b(3)
式中, w ⋅ x w\cdot x w⋅x∈(-∞,+∞)
通过公式(3)得到
f
(
x
)
=
e
w
⋅
x
+
b
1
+
e
w
⋅
x
+
b
f(x)=\frac{e^{w\cdot x+b}}{1+e^{w\cdot x+b}}
f(x)=1+ew⋅x+bew⋅x+b 即公式(2)
若
w
=
(
w
(
1
)
,
w
(
2
)
,
…
,
w
(
n
)
,
b
)
w=(w^{(1)}, w^{(2)},\dots,w^{(n)},b)
w=(w(1),w(2),…,w(n),b),
x
=
(
x
(
1
)
,
x
(
2
)
,
…
,
x
(
n
)
,
1
)
x=(x^{(1)}, x^{(2)},\dots,x^{(n)},1)
x=(x(1),x(2),…,x(n),1),则
P
(
Y
=
1
∣
x
)
=
e
w
⋅
x
1
+
e
w
⋅
x
P(Y=1|x)=\frac{e^{w\cdot x}}{1+e^{w\cdot x}}
P(Y=1∣x)=1+ew⋅xew⋅x
P ( Y = 0 ∣ x ) = 1 1 + e w ⋅ x P(Y=0|x)=\frac{1}{1+e^{w\cdot x}} P(Y=0∣x)=1+ew⋅x1
sigmoid激活函数:
f
(
x
)
=
1
1
+
e
−
x
f(x)=\frac{1}{1+e^{-x}}
f(x)=1+e−x1
sigmoid的梯度消失:
S
′
(
x
)
=
e
−
x
(
1
+
e
−
x
)
2
=
S
(
x
)
(
1
−
S
(
x
)
)
<
=
1
4
S^{'}(x)=\frac{e^{-x}}{(1+e^{-x})^2}=S(x)(1-S(x)) <= \frac{1}{4}
S′(x)=(1+e−x)2e−x=S(x)(1−S(x))<=41
所以,当网络较深时,反向误差传递时,会越来越小(假设经过n次sigmod那么误差要乘以小于
(
1
4
)
n
(\frac{1}{4})^n
(41)n的数,呈指数下降)。即只有在深处的网络层得到训练,而浅层得不到训练。
当使用的激活函数导数大于1时,会出现loss呈指数增加的现象,即会引起梯度爆炸。
一般解决梯度消失问题,可以选择relu激活函数替代sigmoid,因为relu导数为1。
模型参数估计:极大似然函数
概率模型多用
极
大
似
然
估
计
‾
\underline{极大似然估计}
极大似然估计:给定参数w,求样本的联合概率密度(似然函数),使其最大,求出w。
原理:极大似然估计是建立在极大似然原理的基础上的一个统计方法,是概率论在统计学中的应用。极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。通过若干次试验,观察其结果,利用试验结果得到某个参数值能够使样本出现的概率为最大,则称为极大似然估计。
最大似然估计的目的就是:利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。
给定样本
T
=
{
(
x
1
,
y
1
)
,
(
x
2
,
y
2
)
,
…
,
(
x
N
,
y
N
)
}
T=\{(x_1,y_1),(x_2,y_2),\dots,(x_N,y_N)\}
T={(x1,y1),(x2,y2),…,(xN,yN)}, 其中
x
i
∈
R
n
,
y
i
∈
{
0
,
1
}
x_i\in{R^n},y_i\in\{0,1\}
xi∈Rn,yi∈{0,1}.
设
P
(
Y
=
1
∣
x
)
=
π
(
x
)
,
P
(
Y
=
0
∣
x
)
=
1
−
π
(
x
)
P(Y=1|x)=\pi(x), P(Y=0|x)=1-\pi(x)
P(Y=1∣x)=π(x),P(Y=0∣x)=1−π(x)
似然函数(likehood function)为:
P
(
y
∣
x
;
w
)
=
∏
i
=
1
N
[
π
(
x
i
)
]
y
i
[
1
−
π
(
x
i
)
]
1
−
y
i
P(y|x;w)=\prod^N_{i=1}[\pi(x_i)]^{y_i}[1-\pi(x_i)]^{1-y_i}
P(y∣x;w)=i=1∏N[π(xi)]yi[1−π(xi)]1−yi
对数似然函数
L
(
w
)
=
∑
i
=
1
N
[
y
i
l
o
g
π
(
x
i
)
+
(
1
−
y
i
)
l
o
g
(
1
−
π
(
x
i
)
)
]
=
∑
i
=
1
N
[
y
i
l
o
g
π
(
x
i
)
1
−
π
(
x
i
)
+
l
o
g
(
1
−
π
(
x
i
)
)
]
=
∑
i
=
1
N
[
y
i
(
w
⋅
x
)
−
l
o
g
(
1
+
e
(
w
⋅
x
i
)
)
]
L(w)=\sum^N_{i=1}{[y_ilog\pi(x_i)+(1-y_i)log(1-\pi(x_i))]} \\=\sum^N_{i=1}{[y_ilog\frac{\pi(x_i)}{1-\pi(x_i)}+log(1-\pi(x_i))]} \\=\sum^N_{i=1}{[y_i(w\cdot x)-log(1+e^{(w\cdot x_i)})]}
L(w)=i=1∑N[yilogπ(xi)+(1−yi)log(1−π(xi))]=i=1∑N[yilog1−π(xi)π(xi)+log(1−π(xi))]=i=1∑N[yi(w⋅x)−log(1+e(w⋅xi))]
对
L
(
w
)
L(w)
L(w)求极大值,得到
w
w
w的估计值。
假设
w
w
w的极大似然估计为
w
^
\hat{w}
w^,那么学到的逻辑斯蒂回归模型为
P
(
Y
=
1
∣
x
)
=
e
w
^
⋅
x
1
+
e
w
^
⋅
x
P(Y=1|x)=\frac{e^{\hat{w}\cdot x}}{1+e^{\hat{w}\cdot x}}
P(Y=1∣x)=1+ew^⋅xew^⋅x
P ( Y = 0 ∣ x ) = 1 1 + e w ^ ⋅ x P(Y=0|x)=\frac{1}{1+e^{\hat{w}\cdot x}} P(Y=0∣x)=1+ew^⋅x1
记已知的样本集为:
X
=
x
1
,
x
2
,
…
,
x
n
X={x_1,x_2,\dots,x_n}
X=x1,x2,…,xn
似然函数(likehood function):联合概率密度函数
P
(
X
∣
θ
)
P(X|\theta)
P(X∣θ)称为相对于
x
1
,
x
2
,
…
,
x
n
{x_1,x_2,\dots,x_n}
x1,x2,…,xn的θ的似然函数。
l
(
θ
)
=
P
(
X
∣
θ
)
=
P
(
x
1
,
x
2
,
…
,
x
n
∣
θ
)
=
∏
i
=
1
N
P
(
x
i
,
∣
θ
)
l(\theta)=P(X|\theta)=P(x_1,x_2,\dots,x_n|\theta)=\prod^N_{i=1}P(x_i,|\theta)
l(θ)=P(X∣θ)=P(x1,x2,…,xn∣θ)=∏i=1NP(xi,∣θ)
这一概率随
θ
\theta
θ的取值而变化,它是
θ
\theta
θ的函数,称
l
(
θ
)
l(\theta)
l(θ)为样本的似然函数。
θ
^
=
a
r
g
m
a
x
P
(
X
∣
θ
)
=
a
r
g
m
a
x
P
(
x
1
,
x
2
,
…
,
x
n
∣
θ
)
=
a
r
g
m
a
x
∏
i
=
1
N
P
(
x
i
,
∣
θ
)
\hat{\theta}=argmaxP(X|\theta)=argmaxP(x_1,x_2,\dots,x_n|\theta)=argmax\prod^N_{i=1}P(x_i,|\theta)
θ^=argmaxP(X∣θ)=argmaxP(x1,x2,…,xn∣θ)=argmax∏i=1NP(xi,∣θ)
l
n
l
(
θ
)
lnl(\theta)
lnl(θ)是
l
(
θ
)
l(\theta)
l(θ)增函数,
l
n
l
(
θ
)
lnl(\theta)
lnl(θ)和
l
(
θ
)
l(\theta)
l(θ)具有相同的最大值点
θ
^
=
a
r
g
m
a
x
l
n
l
(
θ
)
=
a
r
g
m
a
x
∑
i
=
1
N
l
n
p
(
x
i
∣
θ
)
\hat{\theta}=argmax lnl(\theta) = argmax\sum^N_{i=1}lnp(x_i|\theta)
θ^=argmaxlnl(θ)=argmaxi=1∑Nlnp(xi∣θ)
- 未知参数只有一个(θ为标量)
在似然函数满足连续、可微的正则条件下,极大似然估计量是下面微分方程的解:
∂ l ( θ ) ∂ θ = 0 \frac{\partial l(\theta)}{\partial \theta} = 0 ∂θ∂l(θ)=0 或者等价于
∂ l n l ( θ ) ∂ θ = 0 \frac{\partial lnl(\theta)}{\partial \theta} = 0 ∂θ∂lnl(θ)=0
2.未知参数有多个(θ为向量)
则θ可表示为具有S个分量的未知向量:
θ
=
[
θ
1
,
θ
2
,
…
,
θ
s
]
\theta=[\theta_1,\theta_2,\dots,\theta_s]
θ=[θ1,θ2,…,θs]
记梯度算子:
▽
θ
=
[
∂
∂
θ
1
,
∂
∂
θ
2
,
…
,
∂
∂
θ
s
]
\bigtriangledown_\theta=[\frac{\partial}{\partial\theta_1},\frac{\partial}{\partial\theta_2},\dots,\frac{\partial}{\partial\theta_s}]
▽θ=[∂θ1∂,∂θ2∂,…,∂θs∂]
若似然函数满足连续可导的条件,则最大似然估计量就是如下方程的解。
▽
θ
l
n
l
(
θ
)
=
∑
i
=
1
N
▽
θ
l
n
P
(
x
i
,
θ
)
=
0
\bigtriangledown_\theta lnl(\theta)=\sum^N_{i=1}\bigtriangledown_\theta lnP(x_i,\theta)=0
▽θlnl(θ)=i=1∑N▽θlnP(xi,θ)=0
方程的解只是一个估计值,只有在样本数趋于无限多的时候,它才会接近于真实值。
求最大似然估计量的一般步骤:
(1)写出似然函数;
(2)对似然函数取对数;
(3)求导数(偏导);
(4)解似然方程。
最大似然估计的特点:
1.比其他估计方法更加简单;
2.收敛性:无偏或者渐近无偏,当样本数目增加时,收敛性质会更好;
3.如果假设的类条件概率模型正确,则通常能获得较好的结果。但如果假设模型出现偏差,将导致非常差的估计结果。
添加链接描述