f(x)′=−e−x(1+e−x)2=1(1+e−x)2(1−11+e−x)=f(x)(1−f(x))
f
(
x
)
′
=
−
e
−
x
(
1
+
e
−
x
)
2
=
1
(
1
+
e
−
x
)
2
(
1
−
1
1
+
e
−
x
)
=
f
(
x
)
(
1
−
f
(
x
)
)
Logistic模型
将线性函数的结果映射到Sigmoid函数中,得到Logistic模型。它是一种二分类模型,由条件概率P(Y|X)
P
(
Y
|
X
)
表示。随机变量X
X
的取值为实数,Y的取值为{0,1}。Logistic模型如下:
P(Y=1|x)=11+e−θx
P
(
Y
=
1
|
x
)
=
1
1
+
e
−
θ
x
P(Y=0|x)=1−11+e−θx=e−θx1+e−θx
P
(
Y
=
0
|
x
)
=
1
−
1
1
+
e
−
θ
x
=
e
−
θ
x
1
+
e
−
θ
x
极大似然估计
设:
h(θ)=11+e−θx
h
(
θ
)
=
1
1
+
e
−
θ
x
则Logistic模型可表示为:
P(Y=y|x)=hθ(x)y(1−hθ(x))(1−y))
P
(
Y
=
y
|
x
)
=
h
θ
(
x
)
y
(
1
−
h
θ
(
x
)
)
(
1
−
y
)
)
似然函数为:
L(θ)=∏hθ(x(i))y(i)(1−hθ(x(i))1−y(i))
L
(
θ
)
=
∏
h
θ
(
x
(
i
)
)
y
(
i
)
(
1
−
h
θ
(
x
(
i
)
)
1
−
y
(
i
)
)
对数似然函数为:
l(θ)=∑(y(i)loghθ(x(i))+(1−y(i))(1−loghθ(x(i))))
l
(
θ
)
=
∑
(
y
(
i
)
l
o
g
h
θ
(
x
(
i
)
)
+
(
1
−
y
(
i
)
)
(
1
−
l
o
g
h
θ
(
x
(
i
)
)
)
)
J(θ)=−∑(y(i)loghθ(x(i))+(1−y(i))(1−loghθ(x(i))))
J
(
θ
)
=
−
∑
(
y
(
i
)
l
o
g
h
θ
(
x
(
i
)
)
+
(
1
−
y
(
i
)
)
(
1
−
l
o
g
h
θ
(
x
(
i
)
)
)
)
求得
J(θ)
J
(
θ
)
的极小值
随机梯度下降法求解参数
对θ
θ
求偏导得:
∂J(θ)∂θj=−∑(y(i)1hθ(x(i))−(1−y(i))11−hθ(x(i)))∂∂θjhθ(x(i))=−∑(y(i)1hθ(x(i))−(1−y(i))11−hθ(x(i)))hθ(x(i)(1−hθ(x(i))∂θjθx=∑(hθ(x(i))−y(i))x(i)j
∂
J
(
θ
)
∂
θ
j
=
−
∑
(
y
(
i
)
1
h
θ
(
x
(
i
)
)
−
(
1
−
y
(
i
)
)
1
1
−
h
θ
(
x
(
i
)
)
)
∂
∂
θ
j
h
θ
(
x
(
i
)
)
=
−
∑
(
y
(
i
)
1
h
θ
(
x
(
i
)
)
−
(
1
−
y
(
i
)
)
1
1
−
h
θ
(
x
(
i
)
)
)
h
θ
(
x
(
i
)
(
1
−
h
θ
(
x
(
i
)
)
∂
θ
j
θ
x
=
∑
(
h
θ
(
x
(
i
)
)
−
y
(
i
)
)
x
j
(
i
)
采用随机梯度下降法求参数的更新公式为:
θ:=θ−α(hθ(x(i))−y(i))x(i)j
θ
:=
θ
−
α
(
h
θ
(
x
(
i
)
)
−
y
(
i
)
)
x
j
(
i
)