详解神经网络中矩阵实现的梯度计算

本文详细探讨了神经网络中矩阵形式的梯度计算,包括dx、dw和db的求法。通过矩阵乘法,解释了如何利用dY矩阵与w转置矩阵相乘得到dx矩阵,以及X转置矩阵与dY矩阵相乘得到dw矩阵。同时,文章指出db等于所有样本dY的求和。最后讨论了mini-batch梯度计算的优点,平衡了不同样本梯度的综合效果,避免了单个样本更新带来的动荡。
摘要由CSDN通过智能技术生成

对神经网络有一定了解的同学知道:一般的神经网络的具体实现都是通过矩阵实现的,包括误差反向传导,梯度计算和更新等等,比如 y = w ∗ x + b y=w*x+b y=wx+b,这里的所有变量都是矩阵,我们通常会叫 w w w b b b为参数矩阵,矩阵相乘首先效率比较高,然后也比较好操作,那么对于矩阵形式的导数该怎么计算?比如 w w w矩阵的具体导数 d w dw dw应该如何计算?

首先我们来看一个只有输入和输出层的网络,我们输入 X X X矩阵大小为 N ∗ D N*D ND N N N为batch的大小,也就是一次性输入的样本数, D D D为输入数据的维度,也就是输入层神经元的个数,输出矩阵 Y Y Y大小为 N ∗ M N*M NM M M M为输出数据的维度,也就是输出层神经元的个数, 可以看成输入数据X经过这个网络的变换,数据维度由 D D D映射到了 M M M维,那么 w w w矩阵的大小自然就是 D ∗ M D*M DM

1. 当前层 d x

评论 28
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值