logistic回归的损失函数和极大似然估计的关系
记
Φ
(
x
)
=
1
1
+
e
−
θ
x
\Phi(x)=\frac{1}{1+e^-{\theta x}}
Φ(x)=1+e−θx1
我们可以把这个sigmoid函数的值看做y等于1的后验估计概率,也就是:
p
(
y
=
1
∣
x
)
=
Φ
(
x
)
p(y=1|x)=\Phi(x)
p(y=1∣x)=Φ(x)
那么y=0的时候自然是补事件
p
(
y
=
0
∣
x
)
=
1
−
Φ
(
x
)
p(y=0|x)=1-\Phi(x)
p(y=0∣x)=1−Φ(x)
我们可以把这两个式子简化一下,得到
p
(
y
∣
x
)
=
Φ
(
x
)
y
(
1
−
Φ
(
x
)
)
1
−
y
p(y|x)=\Phi(x)^y(1-\Phi(x))^{1-y}
p(y∣x)=Φ(x)y(1−Φ(x))1−y
接下来就是极大似然估计:
L
(
ω
)
=
∏
i
=
1
n
p
(
y
i
∣
x
i
;
ω
)
L(\omega)=\prod_{i=1}^{n}{p(y^i|x^i;\omega)}
L(ω)=i=1∏np(yi∣xi;ω)
极大似然估计要求导,如果是连乘式求导不方便,我们可以用对数划开,就可以得到
l
(
ω
)
=
l
n
L
(
ω
)
=
∑
i
=
1
n
y
i
l
n
(
Φ
(
x
i
)
+
(
1
−
y
i
)
l
n
(
1
−
Φ
(
x
i
)
)
l(\omega)=lnL(\omega)=\sum_{i=1}^{n}{y^iln(\Phi(x^i)+(1−y^i)ln(1−\Phi(x^i))}
l(ω)=lnL(ω)=i=1∑nyiln(Φ(xi)+(1−yi)ln(1−Φ(xi))
这样求出来的参数
ω
\omega
ω是令
l
(
ω
)
l(\omega)
l(ω)最大的参数,我们是希望这个尽可能小,因为你仔细看就会发现
l
(
ω
)
l(\omega)
l(ω)其实就是损失函数的正值,那我们在前面添上个负号,就可以求得最小的损失函数值。
J
(
w
)
=
−
l
(
w
)
=
−
∑
i
=
1
n
y
i
l
n
(
Φ
(
x
i
)
+
(
1
−
y
i
)
l
n
(
1
−
Φ
(
x
i
)
)
J(w)=−l(w)=-\sum_{i=1}^{n}{y^iln(\Phi(x^i)+(1−y^i)ln(1−\Phi(x^i))}
J(w)=−l(w)=−i=1∑nyiln(Φ(xi)+(1−yi)ln(1−Φ(xi))