详解神经网络中矩阵实现的梯度计算

ppp8300885

已于 2023-08-24 16:30:47 修改

阅读量3w

点赞数 25

分类专栏：深度学习文章标签：神经网络 batch 矩阵梯度计算 mini-batch 神经网络具体实现

于 2017-11-09 20:28:14 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ppp8300885/article/details/78492166

版权

本文详细探讨了神经网络中矩阵形式的梯度计算，包括dx、dw和db的求法。通过矩阵乘法，解释了如何利用dY矩阵与w转置矩阵相乘得到dx矩阵，以及X转置矩阵与dY矩阵相乘得到dw矩阵。同时，文章指出db等于所有样本dY的求和。最后讨论了mini-batch梯度计算的优点，平衡了不同样本梯度的综合效果，避免了单个样本更新带来的动荡。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

对神经网络有一定了解的同学知道：一般的神经网络的具体实现都是通过矩阵实现的，包括误差反向传导，梯度计算和更新等等，比如 $y = w * x + b$ ，这里的所有变量都是矩阵，我们通常会叫 $w$ 和 $b$ 为参数矩阵，矩阵相乘首先效率比较高，然后也比较好操作，那么对于矩阵形式的导数该怎么计算？比如 $w$ 矩阵的具体导数 $d w$ 应该如何计算？

首先我们来看一个只有输入和输出层的网络，我们输入 $X$ 矩阵大小为 $N * D$ ， $N$ 为batch的大小，也就是一次性输入的样本数， $D$ 为输入数据的维度，也就是输入层神经元的个数，输出矩阵 $Y$ 大小为 $N * M$ ， $M$ 为输出数据的维度，也就是输出层神经元的个数，可以看成输入数据X经过这个网络的变换，数据维度由 $D$ 映射到了 $M$ 维，那么 $w$ 矩阵的大小自然就是 $D * M$

1. 当前层

最低0.47元/天解锁文章

评论 28

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。