Coursera机器学习笔记第5周第九章神经网络：学习（二）_course吴恩达机器学习第五周学习笔记-CSDN博客

本文链接：https://blog.csdn.net/shengchaohua163/article/details/79729934

第九章神经网络：学习（二）

第2节反向传播实践（Backpropagation in practice）

9.4 实现注意：展开参数

参考视频：9 - 4 - Implementation Note_ Unrolling Parameters (8 min).mkv

为了在高级优化算法的使用需要，我们需要把参数从矩阵转化为向量。以下为高级优化代码，

function [jVal, gradient] = costFunction(theta)
    ...
end
optTheta = fminunc(@costFunction, initialTheta, options)

对于四层的神经网络，根据之前的叙述，我们会有矩阵Θ(1),Θ(2),Θ(3)和D(1),D(2),D(3)，需要把它们转化为多维一列的向量。
这里写图片描述

上图中包含了矩阵和矩阵相互转换的Matlab代码。在优化算法前，我们把矩阵转化为向量；优化算法优化之后，我们再把返回的向量转化为矩阵。另外，优化算法优化代价函数costFunction，其参数也应该是向量，在函数内将向量转化为矩阵。

总结如下图：
这里写图片描述

9.5 梯度检验

参考视频：9 - 5 - Gradient Checking (12 min).mkv

当我们对一个较为复杂的模型（如神经网络）使用梯度下降算法是，可能会存在一些不容易察觉的错误。这意味着虽然代价看上去在不断减小，但最终的结果可能并不是最优解。

为了避免这样的问题，我们采取一种叫做数值梯度检验（Numerical Gradient Checking）方法。这种方法的思想是通过估计梯度值来检验我们计算的导数值是否符合我们的要求。

对梯度的估计采用切线法：在需要计算梯度的点Θ的两边取两个非常近的点，用函数值之差除以两点之差来估计梯度。梯度估计：∂∂ΘJ(Θ)≈J(Θ+ϵ)−J(Θ−ϵ)2ϵ。如下图，
这里写图片描述
当Θ是一个向量时，我们则需要对偏导数进行检验。因为代价函数的偏导数检验只针对一个参数的改变进行检验：∂∂ΘjJ(Θ)≈J(Θ1,…,Θj+ϵ,…,Θn)−J(Θ1,…,Θj−ϵ,…,Θn)2ϵ

代码如下：

epsilon = 1e-4;
for i = 1:n,
  thetaPlus = theta;
  thetaPlus(i) += epsilon;
  thetaMinus = theta;
  thetaMinus(i) -= epsilon;
  gradApprox(i) = (J(thetaPlus) - J(thetaMinus))/(2*epsilon)
end

我们之前看到了如何计算deltavector。所以一旦我们计算了我们的gradApprox向量，我们就可以检查gradApprox是否约等于deltavector。

另外，如果验证了反向传播算法是正确的，你就可以把梯度检验的代码禁用掉。不需要再次计算gradApprox了，而且计算gradApprox的代码非常慢。