时间:2019/3/28
内容:反向传播
课时9:反向传播
(表示莫名喜欢这一讲的内容)
已学内容:
- 用f定义一个分类器,权重矩阵W是f的参数,输入数据x并对象要分类的每个类别都输出一个对应的得分向量
- 定义损失函数,体现对模型预测结果满意或是不满意的程度,并用它定义一个总的损失函数(loss+regularization)
- 正则项表示模型的复杂程度。为了更好的泛华,我们倾向取简单的模型
- 接下来我们想找到最小损失对应的参数W,想要最小化损失,也就是想找到L在W方向上的梯度。上节课讲到的是如何用最优化来实现这一点:我们会沿着最陡的下降方向,即梯度的负方向来一步步迭代,这样就能沿着损失 函数从上往下走到最低点
- 计算梯度的不同方法:有限差分估计来计算数值梯度(慢且结果区分度不大,实现简单);解析梯度(快,但易错)。实际使用中用解析梯度来推导,用数值梯度来检验
此课时讲解如何计算任意复杂函数的解析梯度
注意:
- 需要用到计算图框架。我们用这类图来表示任意函数,其中,图的节点表示我们要执行的每一步计算
- 上图中是之前讲过的线性分类器。‘*’表示矩阵乘法;hinge loss是数据损失项
- 一旦能用计算流图来表示函数,就能用反向传播技术递归地调用链式法则来算计算图中每个变量的梯度
下面的例子中,我们要找到该函数输出对应任意变量的梯度。从后往前计算f对所有变量的梯度
最终结果:
注意:
- local input: x,y
- local output: z
- local gradient(见图)
- 在每个节点上计算我们所需要的本地梯度,然后跟踪这个梯度,在反向传播过程中,我们接受从上游传回来的这个梯度值,直接用这个值乘以本地梯度,然后得到我们想要传回连接点的值,在下一个节点进行反向传播时,我们不考虑除了直接相连的节点以外的任何东西
下面看另一道例题:
注意:
- 画好计算图后开始进行反向传播
- 当遇到加法运算的节点,加法运算对每个输入的梯度正好是1
- 乘法运算节点,对于某一输入的local梯度值恰好是另一个输入的值,例如:
- 反向传播从图中的最末端开始。输出最终变量在某方向上的梯度结果得到的梯度是1
- 下图中第二个梯度值的计算:已知该节点传回来的上游梯度值1,现在需要找这个节点的本地梯度,即该节点表达式的导数在1.37(local input)的值,然后再与上游梯度相乘得到出入节点方向上的梯度
- “+1”节点的本地梯度,根据f(x) = c+x得出为1
- 经过max门,上游梯度会传到local input 较大的支路,另一条则为0
以上情况讨论的都是一维的情况,也就是x,y,z都是标量,下面我们来看如果变成高位的,即它们是向量该怎么计算
整个计算流程是一样的,唯一的区别在于我们刚才的梯度变成了Jacobian matrix(包含每个变量里个元素导数的矩阵)
举个栗子:
中间的运算节点是对每个元素求最大值的运算。Q:What is the size of the Jacobian matrix?(它的每一行是输出向量的每一个元素对输入向量的每个元素求偏导的结果)因此是4096*4096
算出的Jacobian会是一个对角矩阵,因此只需要求输出向量关于x的偏导,然后把结果作为梯度
- 忘完了orz回去复习线性代数+_+
注意链式法则的使用:
变量梯度的向量大小应该和变量向量大小一致
- 推导详细计算过程
通过前向传播中计算节点的输出,反向传播中计算梯度
反向传播的目的是得到所有梯度,它是神经网络的核心技术