将 二分类问题当成普通多分类问题,神经网络如下所示

因为有两个分类,所以需要有两个输出,然后经过 softmax
后得到每个分类的预测概率。
假设第一个分类的得分 S 1 = W 1 X + b 1 S_1=W_1X+b_1 S1=W1X+b1,第二个分类得分 S 2 = W 1 X + b 2 S_2=W_1X+b_2 S2=W1X+b2,
则经过 softmax
层后得到 第一个分类的概率为
P
1
=
e
S
1
e
S
1
+
e
S
2
=
1
1
+
e
S
2
−
S
1
P_1=\frac{e^{S_1}}{e^{S_1}+e^{S_2}}=\frac{1}{1+e^{S_2-S_1}}
P1=eS1+eS2eS1=1+eS2−S11
第二个分类的概率为
P
2
=
e
S
2
e
S
1
+
e
S
2
=
1
1
+
e
S
1
−
S
2
P_2=\frac{e^{S_2}}{e^{S_1}+e^{S_2}}=\frac{1}{1+e^{S_1-S_2}}
P2=eS1+eS2eS2=1+eS1−S21
令
S
=
S
2
−
S
1
=
(
W
2
−
W
1
)
X
+
(
b
2
−
b
1
)
S=S_2-S_1=(W_2-W_1)X+(b_2-b_1)
S=S2−S1=(W2−W1)X+(b2−b1)
那么
P
1
P_1
P1 和
P
2
P_2
P2 可以重写为
P
1
=
1
1
+
e
S
P
2
=
1
1
+
e
−
S
P_1=\frac{1}{1+e^{S}}\\P_2=\frac{1}{1+e^{-S}}
P1=1+eS1P2=1+e−S1
这两个公式是等价的,我们只需要求一个即可,另一个通过
1
−
P
1-P
1−P 计算得出。
这两个概率 P P P 随得分 S S S 的变化图像如下所示:
P
1
P_1
P1
P
2
P_2
P2
由上图可见,采取
P
2
P_2
P2 的公式时,
S
S
S 越大,
P
P
P 的取值越接近1,符合我们的直觉,所以选择这个。这就是 sigmoid
函数
于是上述神经网络可以简化为只有一个输出的神经网络,然后经过 sigmoid
函数得到预测为分类1的概率
P
P
P,另一个分类的概率为
1
−
P
1-P
1−P。新神经网络只需要训练一个权重
W
W
W 和偏移量
b
b
b 即可。
