CS231n 学习笔记（六）

最新推荐文章于 2022-06-27 20:33:05 发布

kinggerui

最新推荐文章于 2022-06-27 20:33:05 发布

阅读量615

点赞数 1

分类专栏：斯坦福 CS231n 学习笔记文章标签： CS231n 学习笔记

本文链接：https://blog.csdn.net/kinggerui/article/details/88879195

版权

18 篇文章 9 订阅

订阅专栏

时间：2019/3/28
内容：反向传播

（表示莫名喜欢这一讲的内容）
在这里插入图片描述
已学内容：

用f定义一个分类器，权重矩阵W是f的参数，输入数据x并对象要分类的每个类别都输出一个对应的得分向量
定义损失函数，体现对模型预测结果满意或是不满意的程度，并用它定义一个总的损失函数（loss+regularization）
正则项表示模型的复杂程度。为了更好的泛华，我们倾向取简单的模型
接下来我们想找到最小损失对应的参数W，想要最小化损失，也就是想找到L在W方向上的梯度。上节课讲到的是如何用最优化来实现这一点：我们会沿着最陡的下降方向，即梯度的负方向来一步步迭代，这样就能沿着损失函数从上往下走到最低点
计算梯度的不同方法：有限差分估计来计算数值梯度（慢且结果区分度不大，实现简单）；解析梯度（快，但易错）。实际使用中用解析梯度来推导，用数值梯度来检验

此课时讲解如何计算任意复杂函数的解析梯度
在这里插入图片描述
注意：

下面的例子中，我们要找到该函数输出对应任意变量的梯度。从后往前计算f对所有变量的梯度

在这里插入图片描述

最终结果：

注意：

local input: x,y
local output: z
local gradient(见图)
在每个节点上计算我们所需要的本地梯度，然后跟踪这个梯度，在反向传播过程中，我们接受从上游传回来的这个梯度值，直接用这个值乘以本地梯度，然后得到我们想要传回连接点的值，在下一个节点进行反向传播时，我们不考虑除了直接相连的节点以外的任何东西

下面看另一道例题：
在这里插入图片描述
注意：

在这里插入图片描述

反向传播从图中的最末端开始。输出最终变量在某方向上的梯度结果得到的梯度是1
下图中第二个梯度值的计算：已知该节点传回来的上游梯度值1，现在需要找这个节点的本地梯度，即该节点表达式的导数在1.37（local input）的值，然后再与上游梯度相乘得到出入节点方向上的梯度
“+1”节点的本地梯度，根据f(x) = c+x得出为1

在这里插入图片描述

以上情况讨论的都是一维的情况，也就是x,y,z都是标量，下面我们来看如果变成高位的，即它们是向量该怎么计算
在这里插入图片描述
整个计算流程是一样的，唯一的区别在于我们刚才的梯度变成了Jacobian matrix(包含每个变量里个元素导数的矩阵)

举个栗子：
在这里插入图片描述
中间的运算节点是对每个元素求最大值的运算。Q：What is the size of the Jacobian matrix?(它的每一行是输出向量的每一个元素对输入向量的每个元素求偏导的结果)因此是4096*4096

算出的Jacobian会是一个对角矩阵,因此只需要求输出向量关于x的偏导，然后把结果作为梯度

在这里插入图片描述

注意链式法则的使用：

在这里插入图片描述
变量梯度的向量大小应该和变量向量大小一致

通过前向传播中计算节点的输出，反向传播中计算梯度
在这里插入图片描述

反向传播的目的是得到所有梯度，它是神经网络的核心技术

关注

专栏目录