深度学习知识点之1---sigmoid and softmax, BCE and CE loss function

Sigmoid——二分类

  • 将输出转换为概率
    • 概率的值范围为0.0到1.0
    • 属于所有类别的概率之和为1.0
      在这里插入图片描述
      σ ( l i ) = 1 1 + e − l i σ(li) = \frac{1}{1 + e^{-li}} σ(li)=1+eli1
      在这里插入图片描述

Softmax——多分类

S ( l i ) = e l i ∑ k e l k S(l_i) = \frac{e^{l_i}}{\sum_{k}e^{l_k}} S(li)=kelkeli
在这里插入图片描述

multi-label分类,非 multi-class分类

  • 输出属于对个类别中的一个或者多个类
    • 例如一幅包含猫咪的图像可以同事属于“猫”、“哺乳动物”或者“宠物”
  • 对每一个输出独立使用Sigmoid激活函数,不使用softmax

BCE (结合sigmoid)

  • Cross-entropy loss for multi-label classification
    L i = − ∑ k y k l o g ( σ ( l i ) + ( 1 − y k ) l o g ( 1 − σ ( l i ) ) ) L_i = - \sum_{k} y_klog(\sigma(li) + (1 - y_k)log(1 - \sigma(l_i))) Li=kyklog(σ(li)+(1yk)log(1σ(li)))

CE (结合softmax)

  • Cross-entropy loss for multi-class classification
    L i = − ∑ k y k l o g ( S ( l k ) ) L_i = - \sum_{k}y_klog(S(l_k)) Li=kyklog(S(lk))

一般而言:cross-entropy loss比方差函数square error loss在分类的情形下要好:

  • 方差函数对误差的输出惩罚非常大
  • 如果使用Softmax激活函数,加上方差函数作为损失函数,梯度包含 y ^ ( 1 − y ^ ) \hat{y}(1 - \hat{y}) y^(1y^), 当输出接近0.0或者1.0的时候,梯度值非常小,网络的训练会比较慢

从以下的求导公式可以看出

Gradient of square error loss

在这里插入图片描述

Gradient of cross-entropy loss

在这里插入图片描述

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

心惠天意

你的鼓励是我创作最大的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值