hθ(x)=g(z)=11+e−x
h
θ
(
x
)
=
g
(
z
)
=
1
1
+
e
−
x
其求的结果是类别为1的概率
p(y=1|x)
p
(
y
=
1
|
x
)
,将结果与
sigmoid(x=0)=0.5
s
i
g
m
o
i
d
(
x
=
0
)
=
0.5
阈值作比较,大于则为正类。若对正分类要求较为严格,可将阈值上调(如0.7)。
wTx=0
w
T
x
=
0
就是模型的分类界面。
交叉熵损失函数
J(θ)=−1m∑i=1m[y(i)lnhθ(x(i))+(1−y(i))ln(1−hθ(x(i)))]
J
(
θ
)
=
−
1
m
∑
i
=
1
m
[
y
(
i
)
ln
h
θ
(
x
(
i
)
)
+
(
1
−
y
(
i
)
)
ln
(
1
−
h
θ
(
x
(
i
)
)
)
]
其之所以可为损失函数,是由于当
y(i)=1
y
(
i
)
=
1
时,若
hθ(x(i))→1
h
θ
(
x
(
i
)
)
→
1
,有
Jθ→0
J
θ
→
0
;当
y(i)=0
y
(
i
)
=
0
时,若
【1−hθ(x(i))】→1
【
1
−
h
θ
(
x
(
i
)
)
】
→
1
,有
Jθ→0
J
θ
→
0
。即让
hθ(x(i))与y(i)
h
θ
(
x
(
i
)
)
与
y
(
i
)
接近,而
y(i)
y
(
i
)
是固定值0或1。
为什么逻辑回归不采用MSE损失函数而使用交叉熵损失函数?
将hθ(x)=g(z)=11+e−wTx
h
θ
(
x
)
=
g
(
z
)
=
1
1
+
e
−
w
T
x
带入−12m∑mi=1(y(i)−hθ(x(i)))2
−
1
2
m
∑
i
=
1
m
(
y
(
i
)
−
h
θ
(
x
(
i
)
)
)
2
后,损失函数是非凸的,即存在很多局部最小值。这影响优化算法找全局最优解。而交叉熵损失函数是凸函数,加入正则项后是严格凸函数。因此,逻辑回归应用交叉熵函数寻找全局最优解是凸函数,其初始点可以在任何位置,也可以直接为0。