卷积神经网络（二）：Softmax损失以及反向传播导数推导

最新推荐文章于 2024-08-28 11:17:46 发布

qwioer

最新推荐文章于 2024-08-28 11:17:46 发布

阅读量409

点赞数 1

分类专栏： Deep Learning

原文链接：https://blog.csdn.net/Fire_Light_/article/details/79542627

版权

Deep Learning 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

Softmax与交叉熵

Softmax函数如下：

P k = e θ k x \sum d j = 0 e θ j x

其中，label(i)表示第i个样本的标签为第几类，I(label(i)==k)判断第i个样本的标签是否为k，若是值为1否则值为0

Softmax对反向传播推导

Softmax反向传播求导主要使用链式求导法则，因此我们只需要从输出层开始逐层倒推即可。
博主为了简便期间，先只讨论一般的神经网络情况（只存在全连接层，无卷积，池化层）

对前一层神经元输出的求导

在这里我们将Softmax层展开，如果前一层的输出（卷积神经网络中通常是全连接层）是X,那么记θX=Y，

P k = e y k \sum d j = 0 e y j

根据链式求导法则，要求出Loss对y的偏导那就可以继续求Loss对x的偏导。

这里写图片描述

Loss对y的偏导分为两种情况，1:对于第i个样本的第label(i)个y的偏导

这里写图片描述

2.对非标签对应项的y的偏导，如果记为b

这里写图片描述

总的来说可以归纳为：

Δ J θ Δ y k = - \sum i = 0 n 1 n [I (l a b e l (i) == k) - P k, i]

因此

Δ J θ Δ x m = - \sum j = 0 d \sum i = 0 n Δ J θ Δ y k Δ y k Δ x m = - \sum j = 0 d {\sum i = 0 n 1 n [I (l a b e l (i) == j) - P j, i] * θ m, j}

对更前的层的输出的求导

核心原理：
同样使用链式法则倒推，假设要求得某一层某个神经元z的导数则：

Δ J θ Δ z = - \sum j = 0 D \sum i = 0 n Δ J θ Δ x j Δ x j Δ z

表示第l层的第i个输出，f(x)表示激活函数
敏感度通过(2)式方向传播，而对权值的偏导数可以如(1)式通过敏感度求得
（以上(1),(2)两个公式都是只考虑一个样本的情况，否则还要加一个求和）

对于卷积神经网络

对于卷积神经网络的求导原理与上述情况一样，由于有卷积和池化层的存在，下一层会存在大量的与上一层无关的神经元，因此敏感度反向传播方式类似于反卷积的过程，由于原理已经掌握，而且在实践中都是由深度学习框架实现，在此就不再详述，感兴趣的可以自己查找其他博客。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。