【cs231n】两层神经网络的反向传播

最新推荐文章于 2023-04-30 09:26:46 发布

JoeYF_

最新推荐文章于 2023-04-30 09:26:46 发布

阅读量1.2k

点赞数 1

分类专栏： cs231n 文章标签：梯度矩阵求导 cs231n

本文链接：https://blog.csdn.net/qyf394613530/article/details/88973448

版权

本文详细介绍了两层神经网络的反向传播过程，包括矩阵求导方法，展示了如何计算权重和偏置的梯度。通过实例解释了如何利用链式法则求解隐藏层和输出层中各个参数的梯度，为神经网络的梯度下降训练提供了理论基础。

摘要由CSDN通过智能技术生成

文章目录

矩阵求导方法

维度相容原则：假设每个中间变量量的维度都不不⼀一样，看怎么摆能把雅克比矩阵的维度摆成矩阵乘法规则允许的形式。只要把矩阵维度倒腾顺了了，公式也就对了了。
设有 $\mathbb { R } ^ { m \times p } \rightarrow \mathbb { R }$ ， $\mathbb { R } ^ { n \times p } \rightarrow \mathbb { R } ^ { m \times p }$ ，则 $\nabla _ { X } f ( A X + B ) = A ^ { T } \nabla _ { Y } f$ ，即 $\frac { \partial f } { \partial X} = A ^ { T } \frac { \partial f} { \partial Y }$
设有 $\mathbb { R } ^ { m \times p } \rightarrow \mathbb { R }$ ， $\mathbb { R } ^ { m \times n } \rightarrow \mathbb { R } ^ { m \times p }$ ，则 $\nabla _ { X } f (XA + B ) = { \nabla _ { Y } f}A ^ { T }$ ，即 $\frac { \partial f } { \partial X} = \frac { \partial f} { \partial Y }{A ^ { T } }$

证明

在前向传播过程中，X的shape(N,D)，W的shape(D,C)，Y=XW。现在，我们假设N = 2, D = 2, C = 3。那么
$\left( \begin{array} { l l } { x _ { 1,1 } } & { x _ { 1,2 } } \\ { x _ { 2,1 } } & { x _ { 2,2 } } \end{array} \right) \qquad W = \left( \begin{array} { l l l } { w _ { 1,1 } } & { w _ { 1,2 } } & { w _ { 1,3 } } \\ { w _ { 2,1 } } & { w _ { 2,2 } } & { w _ { 2,3 } } \end{array} \right)$ $\left( \begin{array} { l l } { x _ { 1,1 } w _ { 1,1 } + x _ { 1,2 } w _ { 2,1 } } & { x _ { 1,1 } w _ { 1,2 } + x _ { 1,2 } w _ { 2,2 } } & { x _ { 1,1 } w _ { 1,3 } + x _ { 1,2 } w _ { 2,3 } } \\ { x _ { 2,1 } w _ { 1,1 } + x _ { 2,2 } w _ { 2,1 } } & { x _ { 2,1 } w _ { 1,2 } + x _ { 2,2 } w _ { 2,2 } } & { x _ { 2,1 } w _ { 1,3 } + x _ { 2,2 } w _ { 2,3 } } \end{array} \right)$ 在前向传播结束后，我们通过输出Y计算得到损失函数L，然后求得 $\frac { \partial L } { \partial Y }$

最低0.47元/天解锁文章

JoeYF_

关注

1
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
【cs231n】两层神经网络的反向传播

文章目录矩阵求导方法两层神经网络的梯度求导矩阵求导方法维度相容原则：假设每个中间变量量的维度都不不⼀一样，看怎么摆能把雅克比矩阵的维度摆成矩阵乘法规则允许的形式。只要把矩阵维度倒腾顺了了，公式也就对了了。设有f(Y):Rm×p→Rf ( Y ) : \mathbb { R } ^ { m \times p } \rightarrow \mathbb { R }f(Y):Rm×p→R，Y=A...
复制链接

扫一扫

专栏目录