为什么 softmax 函数面对二分类问题时可以简化为 sigmoid 函数

将 二分类问题当成普通多分类问题,神经网络如下所示

因为有两个分类,所以需要有两个输出,然后经过 softmax 后得到每个分类的预测概率。

假设第一个分类的得分 S 1 = W 1 X + b 1 S_1=W_1X+b_1 S1=W1X+b1,第二个分类得分 S 2 = W 1 X + b 2 S_2=W_1X+b_2 S2=W1X+b2

则经过 softmax 层后得到 第一个分类的概率为
P 1 = e S 1 e S 1 + e S 2 = 1 1 + e S 2 − S 1 P_1=\frac{e^{S_1}}{e^{S_1}+e^{S_2}}=\frac{1}{1+e^{S_2-S_1}} P1=eS1+eS2eS1=1+eS2S11
第二个分类的概率为
P 2 = e S 2 e S 1 + e S 2 = 1 1 + e S 1 − S 2 P_2=\frac{e^{S_2}}{e^{S_1}+e^{S_2}}=\frac{1}{1+e^{S_1-S_2}} P2=eS1+eS2eS2=1+eS1S21
S = S 2 − S 1 = ( W 2 − W 1 ) X + ( b 2 − b 1 ) S=S_2-S_1=(W_2-W_1)X+(b_2-b_1) S=S2S1=(W2W1)X+(b2b1)

那么 P 1 P_1 P1 P 2 P_2 P2 可以重写为
P 1 = 1 1 + e S P 2 = 1 1 + e − S P_1=\frac{1}{1+e^{S}}\\P_2=\frac{1}{1+e^{-S}} P1=1+eS1P2=1+eS1
这两个公式是等价的,我们只需要求一个即可,另一个通过 1 − P 1-P 1P 计算得出。

这两个概率 P P P 随得分 S S S 的变化图像如下所示:

P 1 P_1 P1

P 2 P_2 P2

由上图可见,采取 P 2 P_2 P2 的公式时, S S S 越大, P P P 的取值越接近1,符合我们的直觉,所以选择这个。这就是 sigmoid 函数

于是上述神经网络可以简化为只有一个输出的神经网络,然后经过 sigmoid 函数得到预测为分类1的概率 P P P,另一个分类的概率为 1 − P 1-P 1P。新神经网络只需要训练一个权重 W W W 和偏移量 b b b 即可。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值