CS231_深度之眼打卡_5

1. 什么是计算图 ,画出函数(x+y)z的计算图,理解反向传播

反向传播是一个优美的局部过程。在整个计算线路图中,每个门单元都会得到一些输入并立即计算两个东西:

  1. 这个门的输出值
  2. 其输出值关于输入值的局部梯度。
    门单元完成这两件事是完全独立的,它不需要知道计算线路中的其他细节。然而,一旦前向传播完毕,在反向传播的过程中,门单元门将最终获得整个网络的最终输出值在自己的输出值上的梯度。链式法则指出,门单元应该将回传的梯度乘以它对其的输入的局部梯度,从而得到整个网络的输出对该门单元的每个输入值的梯度。

这里对于每个输入的乘法操作是基于链式法则的。该操作让一个相对独立的门单元变成复杂计算线路中不可或缺的一部分,这个复杂计算线路可以是神经网络等。
下面通过例子来对这一过程进行理解。加法门收到了输入[-2, 5],计算输出是3。既然这个门是加法操作,那么对于两个输入的局部梯度都是+1。网络的其余部分计算出最终值为-12。在反向传播时将递归地使用链式法则,算到加法门(是乘法门的输入)的时候,知道加法门的输出的梯度是-4。如果网络如果想要输出值更高,那么可以认为它会想要加法门的输出更小一点(因为负号),而且还有一个4的倍数。继续递归并对梯度使用链式法则,加法门拿到梯度,然后把这个梯度分别乘到每个输入值的局部梯度(就是让-4乘以x和y的局部梯度,x和y的局部梯度都是1,所以最终都是-4)。可以看到得到了想要的效果:如果x,y减小(它们的梯度为负),那么加法门的输出值减小,这会让乘法门的输出值增大。

因此,反向传播可以看做是门单元之间在通过梯度信号相互通信,只要让它们的输入沿着梯度方向变化,无论它们自己的输出值在何种程度上升或降低,都是为了让整个网络的输出值更高。

在这里插入图片描述

2.写出(x+y)z的链式求导公式

3. 写出课程中反向求梯度的例子 (w0x0+w1x1+w2)

在这里插入图片描述

4. sigmoid求导 向量的梯度与标量的梯度有什么不同 F(x)=Wx的求导

sigmoid求导

在这里插入图片描述
注:这里注意
σ ( x ) 的 导 数 表 达 式 里 是 σ ( x ) 表 达 式 , 与 平 常 的 x 不 同 \sigma(x)的导数表达式里是\sigma(x)表达式,与平常的x不同 σxσxx

max门的梯度传递(将梯度传给最大值(即局部梯度为1,其余为0)

在这里插入图片描述

变量为向量的梯度

雅可比矩阵
如下图可分析梯度矩阵的尺寸(此处为对角矩阵)
在这里插入图片描述
要分析维度!注意不需要去记忆dW和dX的表达,因为它们很容易通过维度推导出来。例如,权重的梯度dW的尺寸肯定和权重矩阵W的尺寸是一样的,而这又是由X和dD的矩阵乘法决定的。总有一个方式是能够让维度之间能够对的上的。例如,X的尺寸是[10x3],dD的尺寸是[5x3],如果你想要dW和W的尺寸是[5x10],那就要dD.dot(X.T)。
这里的栗子为2*2,不好理解,可以换成W[5x10],x[10x3],q[5x3],就能根据维度分析得到公式(该案例关于W的梯度应该要取转置才对)
在这里插入图片描述

5. 编写x*y forward backward函数并运行

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值