1. 逻辑斯蒂分布
首先介绍逻辑斯蒂分布(logistic distribution)。
设X是连续随机变量,X服从逻辑斯蒂分布是指X具有下列分布函数和密度函数:
F
(
x
)
=
P
(
X
⩽
x
)
=
1
1
+
e
−
(
x
−
μ
)
/
γ
F(x)=P(X\leqslant x)=\frac{1}{1+e^{-(x-\mu)/\gamma}}
F(x)=P(X⩽x)=1+e−(x−μ)/γ1
f
(
x
)
=
F
‘
(
x
)
=
e
−
(
x
−
μ
)
/
γ
γ
(
1
+
e
−
(
x
−
μ
)
/
γ
)
2
f(x)=F`(x)=\frac{e^{-(x-\mu)/\gamma}}{\gamma(1+e^{-(x-\mu)/\gamma})^2}
f(x)=F‘(x)=γ(1+e−(x−μ)/γ)2e−(x−μ)/γ
其中,
μ
\mu
μ为位置函数,
γ
\gamma
γ为形状参数
图形如下所示。分布函数属于逻辑斯蒂函数。以点(
μ
,
1
2
\mu,\frac{1}{2}
μ,21)为中心对称。
2.二项逻辑斯蒂回归模型
二项逻辑斯蒂回归模型是一类分类模型。由条件概率分布P(Y|X)表示。这里,随机变量X取值为实数,Y取值为0或1。通过监督学习的方式来估计模型参数
逻辑斯蒂回归模型
二项逻辑斯蒂回归模型是如下的概率分布:
P
(
Y
=
1
∣
x
)
=
e
x
p
(
w
⋅
x
+
b
)
1
+
e
x
p
(
w
⋅
x
+
b
)
P(Y=1|x)=\frac{exp(w\cdot x+b)}{1+exp(w\cdot x+b)}
P(Y=1∣x)=1+exp(w⋅x+b)exp(w⋅x+b)
P
(
Y
=
0
∣
x
)
=
1
1
+
e
x
p
(
w
⋅
x
+
b
)
P(Y=0|x)=\frac{1}{1+exp(w\cdot x+b)}
P(Y=0∣x)=1+exp(w⋅x+b)1
这里 x ϵ R n x\epsilon R^n xϵRn是输入, Y ϵ [ 0 , 1 ] Y\epsilon[{0,1]} Yϵ[0,1]是输出。 ω ϵ R n \omega \epsilon R^n ωϵRn和 b ϵ R b\epsilon R bϵR是参数。 ω \omega ω是权重,b是偏置
逻辑斯蒂回归模型是比较 P ( Y = 1 ∣ x ) P(Y=1|x) P(Y=1∣x)和 P ( Y = 0 ∣ x ) P(Y=0|x) P(Y=0∣x)的大小,将实例x分到概率值较大的那一个
所以我们需要做的是给定训练集{x,y},去学习到其中的 ω \omega ω和b参数
有时为了方便,将权值向量
ω
\omega
ω和输入向量x进行扩充,把偏置量b表示成统一的形式。
即
ω
=
(
ω
(
1
)
,
ω
(
2
)
,
.
.
.
,
ω
(
n
)
,
b
)
T
\omega=(\omega^{(1)},\omega^{(2)},...,\omega^{(n)},b)^T
ω=(ω(1),ω(2),...,ω(n),b)T,
x
=
(
x
(
1
)
,
x
(
2
)
,
.
.
.
x
(
n
)
,
1
)
T
x=(x^{(1)},x^{(2)},...x^{(n)},1)^T
x=(x(1),x(2),...x(n),1)T,这时逻辑斯蒂回归模型如下:
P
(
Y
=
1
∣
x
)
=
e
x
p
(
w
⋅
x
)
1
+
e
x
p
(
w
⋅
x
)
P(Y=1|x)=\frac{exp(w\cdot x)}{1+exp(w\cdot x)}
P(Y=1∣x)=1+exp(w⋅x)exp(w⋅x)
P
(
Y
=
0
∣
x
)
=
1
1
+
e
x
p
(
w
⋅
x
)
P(Y=0|x)=\frac{1}{1+exp(w\cdot x)}
P(Y=0∣x)=1+exp(w⋅x)1
对数几率函数
现在说明逻辑斯蒂回归模型的特点:一个事件的几率(odds)是指该事件发生的概率p与该事件不发生的概率(1-p)的比值。表示成
l o g i t ( p ) = l o g p 1 − p logit(p) = log\frac{p}{1-p} logit(p)=log1−pp
代入逻辑斯蒂回归得到:
log P ( Y = 1 ∣ x ) 1 − P ( Y = 1 ∣ x ) = ω ⋅ x \log\frac{P(Y=1|x)}{1-P(Y=1|x)}=\omega\cdot x log1−P(Y=1∣x)P(Y=1∣x)=ω⋅x
这说明在逻辑斯蒂回归模型,输出Y的对数几率是输入x的线性模型(或者x的线性函数表示的函数)。其中线性函数的值越接近正无穷,概率越接近1。线性函数的值越接近负无穷,概率越接近0。
模型参数估计
逻辑斯蒂回归模型在学习的时候,给定训练集 T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x N , y N ) } , x ϵ R N , y ϵ { 0 , 1 } T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\},x\epsilon R^N,y\epsilon\{0,1\} T={(x1,y1),(x2,y2),...,(xN,yN)},xϵRN,yϵ{0,1}。可以应用极大似然估计法来估计模型参数 ω \omega ω,得到逻辑斯蒂回归模型。
设
P
(
Y
=
1
∣
x
)
=
π
(
x
)
,
P
(
Y
=
0
∣
x
)
=
1
−
π
(
x
)
P(Y=1|x)=\pi(x) , P(Y=0|x)=1-\pi(x)
P(Y=1∣x)=π(x),P(Y=0∣x)=1−π(x)
似然函数为
∏
i
=
1
N
[
π
(
x
i
)
]
y
i
[
1
−
π
(
x
i
)
]
1
−
y
i
\prod_{i=1}^N[\pi(x_i)]^{y_i}[1-\pi(x_i)]^{1-y_i}
∏i=1N[π(xi)]yi[1−π(xi)]1−yi
对数似然函数为
L
(
w
)
=
∑
i
=
1
N
y
i
log
(
π
(
x
i
)
)
+
(
1
−
y
i
)
log
(
1
−
π
(
x
i
)
)
   
=
∑
i
=
1
N
y
i
log
(
π
(
x
i
)
)
−
y
i
log
(
1
−
π
(
x
i
)
)
+
log
(
1
−
π
(
x
i
)
)
   
=
∑
i
=
1
N
y
i
log
π
(
x
i
)
1
−
π
(
x
i
)
+
log
(
1
−
π
(
x
i
)
)
   
=
∑
i
=
1
N
y
i
(
ω
⋅
x
i
)
−
log
(
1
+
e
x
p
(
ω
⋅
x
)
)
L(w)=\sum_{i=1}^Ny_i\log(\pi(x_i))+(1-y_i)\log(1-\pi(x_i))\\ \qquad \,\,\,=\sum_{i=1}^Ny_i\log(\pi(x_i))-y_i\log(1-\pi(x_i))+\log(1-\pi(x_i)) \\ \qquad \,\,\,=\sum_{i=1}^Ny_i\log\frac{\pi(x_i)}{1-\pi(x_i)}+\log(1-\pi(x_i)) \\ \qquad \,\,\,=\sum_{i=1}^Ny_i(\omega\cdot x_i)-\log(1+exp(\omega \cdot x))
L(w)=∑i=1Nyilog(π(xi))+(1−yi)log(1−π(xi))=∑i=1Nyilog(π(xi))−yilog(1−π(xi))+log(1−π(xi))=∑i=1Nyilog1−π(xi)π(xi)+log(1−π(xi))=∑i=1Nyi(ω⋅xi)−log(1+exp(ω⋅x))
对 L ( w ) L(w) L(w)进行求极大值,就得到了 ω \omega ω的估计值
这样问题就转变为了对以对数似然函数为目标函数的最优化问题。逻辑斯蒂回归通常采用梯度下降法和拟牛顿法。
补充
这里对上面的
log
(
1
−
π
(
x
i
)
)
\log(1-\pi(x_i))
log(1−π(xi))进行补充说明
由
log
P
(
Y
=
1
∣
x
)
1
−
P
(
Y
=
1
∣
x
)
=
ω
⋅
x
\log\frac{P(Y=1|x)}{1-P(Y=1|x)}=\omega\cdot x
log1−P(Y=1∣x)P(Y=1∣x)=ω⋅x
可知
log
π
(
x
i
)
1
−
π
(
x
i
)
=
ω
⋅
x
⇒
π
(
x
i
)
1
−
π
(
x
i
)
=
e
x
p
(
ω
⋅
x
)
⇒
1
1
−
π
(
x
i
)
=
e
x
p
(
ω
⋅
x
)
+
1
⇒
1
−
π
(
x
i
)
=
1
e
x
p
(
ω
⋅
x
)
+
1
⇒
log
(
1
−
π
(
x
i
)
)
=
−
log
(
1
+
e
x
p
(
ω
⋅
x
)
)
\log\frac{\pi(x_i)}{1-\pi(x_i)}= \omega\cdot x \Rightarrow \\\frac{\pi(x_i)}{1-\pi(x_i)}=exp({\omega\cdot x}) \Rightarrow \frac{1}{1-\pi(x_i)}=exp({\omega\cdot x})+1\Rightarrow \qquad1-\pi(x_i)=\frac{1}{exp({\omega\cdot x})+1} \Rightarrow \log(1-\pi(x_i))=-\log(1+exp(\omega \cdot x))
log1−π(xi)π(xi)=ω⋅x⇒1−π(xi)π(xi)=exp(ω⋅x)⇒1−π(xi)1=exp(ω⋅x)+1⇒1−π(xi)=exp(ω⋅x)+11⇒log(1−π(xi))=−log(1+exp(ω⋅x))