CS231_深度之眼打卡_5

最新推荐文章于 2024-07-24 18:21:58 发布

kaidikake

最新推荐文章于 2024-07-24 18:21:58 发布

阅读量142

点赞数

文章标签：神经网络机器学习

本文链接：https://blog.csdn.net/kaidikake/article/details/104135271

版权

文章目录

1. 什么是计算图，画出函数(x+y)z的计算图，理解反向传播
2.写出(x+y)z的链式求导公式
3. 写出课程中反向求梯度的例子 (w0*x0+w1*x1+w2)
4. sigmoid求导向量的梯度与标量的梯度有什么不同 F(x)=Wx的求导
5. 编写x*y forward backward函数并运行

1. 什么是计算图，画出函数(x+y)z的计算图，理解反向传播

反向传播是一个优美的局部过程。在整个计算线路图中，每个门单元都会得到一些输入并立即计算两个东西：

这个门的输出值
其输出值关于输入值的局部梯度。
门单元完成这两件事是完全独立的，它不需要知道计算线路中的其他细节。然而，一旦前向传播完毕，在反向传播的过程中，门单元门将最终获得整个网络的最终输出值在自己的输出值上的梯度。链式法则指出，门单元应该将回传的梯度乘以它对其的输入的局部梯度，从而得到整个网络的输出对该门单元的每个输入值的梯度。

这里对于每个输入的乘法操作是基于链式法则的。该操作让一个相对独立的门单元变成复杂计算线路中不可或缺的一部分，这个复杂计算线路可以是神经网络等。
下面通过例子来对这一过程进行理解。加法门收到了输入[-2, 5]，计算输出是3。既然这个门是加法操作，那么对于两个输入的局部梯度都是+1。网络的其余部分计算出最终值为-12。在反向传播时将递归地使用链式法则，算到加法门（是乘法门的输入）的时候，知道加法门的输出的梯度是-4。如果网络如果想要输出值更高，那么可以认为它会想要加法门的输出更小一点（因为负号），而且还有一个4的倍数。继续递归并对梯度使用链式法则，加法门拿到梯度，然后把这个梯度分别乘到每个输入值的局部梯度（就是让-4乘以x和y的局部梯度，x和y的局部梯度都是1，所以最终都是-4）。可以看到得到了想要的效果：如果x，y减小（它们的梯度为负），那么加法门的输出值减小，这会让乘法门的输出值增大。

因此，反向传播可以看做是门单元之间在通过梯度信号相互通信，只要让它们的输入沿着梯度方向变化，无论它们自己的输出值在何种程度上升或降低，都是为了让整个网络的输出值更高。

在这里插入图片描述

2.写出(x+y)z的链式求导公式

3. 写出课程中反向求梯度的例子 (w0x0+w1x1+w2)

在这里插入图片描述

4. sigmoid求导向量的梯度与标量的梯度有什么不同 F(x)=Wx的求导

sigmoid求导

在这里插入图片描述
注：这里注意
$\sigma（x）的导数表达式里是\sigma（x）表达式，与平常的x不同$

max门的梯度传递（将梯度传给最大值（即局部梯度为1，其余为0）

在这里插入图片描述

变量为向量的梯度

雅可比矩阵
如下图可分析梯度矩阵的尺寸（此处为对角矩阵）
在这里插入图片描述
要分析维度！注意不需要去记忆dW和dX的表达，因为它们很容易通过维度推导出来。例如，权重的梯度dW的尺寸肯定和权重矩阵W的尺寸是一样的，而这又是由X和dD的矩阵乘法决定的。总有一个方式是能够让维度之间能够对的上的。例如，X的尺寸是[10x3]，dD的尺寸是[5x3]，如果你想要dW和W的尺寸是[5x10]，那就要dD.dot(X.T)。
这里的栗子为2*2，不好理解，可以换成W[5x10]，x[10x3]，q[5x3]，就能根据维度分析得到公式（该案例关于W的梯度应该要取转置才对）
在这里插入图片描述

5. 编写x*y forward backward函数并运行

在这里插入图片描述

kaidikake

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
CS231_深度之眼打卡_5

文章目录1. 什么是计算图，画出函数(x+y)z的计算图，理解反向传播2.写出(x+y)z的链式求导公式3. 写出课程中反向求梯度的例子 (w0*x0+w1*x1+w2)4. sigmoid求导向量的梯度与标量的梯度有什么不同 F(x)=Wx的求导5. 编写x*y forward backward函数并运行1. 损失函数通用表达式1. 什么是计算图，画出函数(x+y)z的计算图，...
复制链接

扫一扫