斯坦福大学《Machine Learning》第5周学习笔记

最新推荐文章于 2022-11-06 11:37:29 发布

小T是我

最新推荐文章于 2022-11-06 11:37:29 发布

阅读量818

点赞数

分类专栏：斯坦福大学《Machine Learning》学习笔记文章标签：机器学习深度学习人工智能神经网络梯度下降

本文链接：https://blog.csdn.net/junjun150013652/article/details/80719613

版权

斯坦福大学《Machine Learning》学习笔记专栏收录该内容

11 篇文章 4 订阅

订阅专栏

Neural Networks: Learning神经网络：学习

Cost Function and Backpropagation代价函数和反向传播

Cost Function代价函数

假设我们有一个如左边所示的神经网络结构我用大写字母 L 来表示这个神经网络结构的总层数 这里 L等于4 用 sl表示第L层的单元的数量也就是神经元的数量这其中不包括L层的偏差单元这里s1 = 3 是输入层 s2 =5 输出层s4 = 4 把K看作输出层的单元数目我们只有在K大于或者等于3个类的时候才会使用这种一对多的方法因为如果只有两个类别我们就只需要一个输出单元就可以了

以上是神经网络的代价函数 h(x)带下标i 来表示第i个输出也就是h(x)是一个K维向量下标 i 表示选择了神经网络输出向量的第i个元素这里的第二项这就是类似于我们在逻辑回归里所用的正则化项它所做的就是把这些项全部相加也就是对所有i j和l 的θji的值都相加这里要除去那些对应于偏差值的项

Backpropagation Algorithm反向传播算法

反向传播算法：最小化神经网络的代价函数

为了使用梯度下降法或者其他某种高级优化算法我们需要做的就是 写一个函数，传入参数 θ 然后计算 J(θ) 和偏导数项

如何计算这些偏导数项？

我们假设只有一个训练样本记为 (x, y) 首先应用前向传播方法来它的输出这里的a(1) ～a(4) 都是向量

然后用反向传播(Backpropagation)的算法计算导数项反向传播的式子太多，参考《反向传播算法几个重要公式的详细推导》有这些重要公式的详细推导过程

反向传播算法从直观上说就是对每一个结点我们计算这样一项 δ下标 j 上标(l) 代表了第 l 层的第 j 个结点的误差 a 上标 (l) 下标 j 表示的是第 l 层第 j 个单元的激励值所以这个 δ 项就表示在这个神经节点的激励值的误差

注意这里 δ(4) a(4) 和 y 都是一个向量并且向量维数等于输出单元的数目也就是4维

我们首先计算出网络结构的误差项 δ(4) 然后根据 δ(4) 计算 δ(3)，以此类推，注意这里的点乘这个例子中我们的 δ 项就只有第2层和第3层

反向传播法这个名字源于我们从输出层开始计算 δ项然后我们返回到上一层计算第三隐藏层的 δ项接着我们再往前一步来计算 δ(2)所以说我们是类似于把输出层的误差反向传播给了第3层然后是再传到第二层这就是反向传播的意思

这里总结了反向传播算法的流程

有 m 个样本的训练集正如此处所写首先初始化Δ = 0 (这里的Δ就是δ) Δ(l)ij 会被用来计算 J(θ) 关于 θ 上标(l) 下标 i j 的偏导数这些 δ 会被作为累加项慢慢地增加以算出这些偏导数

接下来我们将遍历我们的训练集首先设定a(1) 也就是输入层的激励函数设定它等于 x(i) 接下来我们运用正向传播来计算第二层的激励值然后是第三层第四层一直这样到最后一层 L层接下来用样本的输出值 y(i) 计算这个输出值所对应的误差项 δ(L) 继续运用反向传播算法来计算 δ(L-1) δ(L-2) 一直这样直到 δ(2)

最后用 Δ 来累积偏导数项然后跳出这个 for 循环然后计算下面这些式子注意在 j=0 的情况下对应偏差项所以没有额外的正则化项

Backpropagation Intuition

前向传播流程，输入层是第i个训练样本x(i)，进行前向传播传播到第一个隐藏层时我们的做法是算出 z(2)1 和 z(2)2 这两个值是输入单元的加权总和接下来将S型的逻辑函数应用到z值上得到 a(2)1 和 a(2)2 的值然后再做一次前向传播最后我们得到 z(4)1 应用逻辑函数得到 a(4)1 这也是这个网络的输出单元的值这里观察z的计算，后面会和反向传播对比，它们实质是一样的，只有计算的方向不同而已。

为了更好地理解反向传播算法的原理我们把目光转向代价函数这个代价函数对应的情况是只有一个输出单元我们用同一个样本同时来做正向和反向传播不考虑正则化这个求和运算括号里面与第i个训练样本对应的代价项所扮演的角色可以看作是平方误差这里的cos(i) 表征了该神经网络是否能准确地预测样本i的值也就是输出值和实际观测值y(i)的接近程度

反向传播算法就是在计算所有这些δ(i)j项它的计算和前面前向传播z的计算过程是一样的

δ 项实际上是关于 z(l)j 的偏微分也就是 cost 函数因此它们度量着我们对神经网络的权值做多少的改变对中间的计算量影响是多少进一步地对整个神经网络的输出 h(x) 影响多少以及对整个的代价值影响多少

我们先算出了 δ(4)1等于 y(i) 减去 a(4)1 接下来我们要对这些值进行反向传播我们计算出 δ(3)1 和 δ(3)2 然后同样的再进行下一层的反向传播这一次计算出 δ(2)1 以及 δ(2)2 反向传播的计算，这里注意我们计算出这些 δ的过程，和之前计算z是一样的，是后一层的δ乘以权重θ的和。

Backpropagation in Practice反向传播练习

Implementation Nonrolling Parameters实现参数向量化

代价函数costFunction 输入参数是theta 返回值是代价函数以及导数值将返回值传递给高级最优化算法fminunc 这个算法是假设theta和gradient是向量而对于神经网络我们的参数都是矩阵θ(1) θ(2) θ(3)

如图，上面是取出这些矩阵并且将它们展开成向量下面是从向量表达返回到矩阵表达式

学习算法：

1. 假设说你有一些初始参数值 θ(1) θ(2) θ(3) 我们要做的是取出这些参数并且将它们展开为一个长向量我们称之为initialTheta

2. 将initialTheta作为theta参数的初始设置传入函数fminunc

3. 执行代价函数costFunction 参数thetaVec 也是向量函数实现部分首先使用 thetaVec和重组函数reshape 重组以得到参数矩阵 θ(1) θ(2) θ(3) 这样就能以更方便的形式执行前向传播和反向传播来计算出导数以求得代价函数的J(θ) 函数最后取出这些导数值展开D1 D2 D3 来得到gradientVec 它是代价函数的返回值而且是一个向量

Gradient Checking梯度检测

在实现反向传播时 会遇到很多细小的错误你把它和梯度下降法或者其他优化算法一起运行时可能看起来它运行正常并且你的代价函数J 最后可能在每次梯度下降法迭代时都会减小即使在实现反向传播时有一些小错误可能也会检查不出来所以它看起来是 J(θ)在减小但是可能你最后得到的神经网络误差较高但是很难找出原因有一个叫梯度检验 (Gradient Checking) 的方法可以解决

考虑上面这个例子假如我有一个函数J(θ) 我想估计这个函数在实数 θ点的导数

我们可以用这条红色线的斜率来作为我导数的近似值真正的导数是这边这条蓝色线的斜率这条红线的斜率等于 J(θ+ε)-J(θ-ε) 除以2ε 给ε取很小的值比如可能取 10的-4次方右边蓝色这个求导方式叫做单侧拆分 左边这个公式叫做双侧拆分 双侧差分更精确

现在θ是n维向量是神经网络参数的展开形式我们可以用类似的想法来估计所有的偏导数项如图所示

在Octave里的实现如上最后将gradApprox 与我们从反向传播得到的DVec 比较如果结果非常近似那么你就可以非常确信你实现的反向传播时正确的

总结梯度检验

1，将计算得到的D(1),D(2),D(3)展开为DVec向量
2，实现数值梯度检验计算出gradApprox
3，确定DVec和gradApprox给出接近的结果
4，关掉梯度检验不再使用使用DVec来计算，因为gradApprox计算量非常大

Random Initialization随机初始化

当你运行一个算法例如梯度下降算法或者其他高级优化算法时我们需要给变量 θ 一些初始值是否可以将 θ 的初始值设为全部是0的向量在逻辑回归时初始化所有变量为0 是可行的但在训练神经网络时这样做是不可行的

如果将所有变量初始化为0 (这里可以考虑从每一个输入出发的θ都是相等的，即x1到a(2)的θ相等，即x2到a(2)的θ相等...那么对于第二层的z = θ‘x 就都相等了) 那么就有每一个隐藏层的a和δ都是相等的同时如果你更深入地挖掘一下你不难得出这些变量对参数的偏导数互为相等即使更新一个梯度下降最后这些权重也会互为相等所以每次更新后隐藏单元的输入对应的参数将是相同的因此第l层的a(l)都是相等的这也就意味着这个神经网络的确不能计算更有价值的东西想象一下不止有两个隐藏单元而是有很多很多的隐藏单元这就是说所有的隐藏单元都在计算相同的特征所有的隐藏单元都通过完全相同的输入函数计算出来这是完全多余的表达

为了解决这个问题神经网络变量初始化的方式采用随机初始化 范围在 -ɛ 到 +ɛ 之间 Octave实现如下 rand 就是用来得出一个任意的二维矩阵矩阵中的所有值都介于0到1之间

总结来说为了训练神经网络应该对权重进行随机初始化初始化为 --ε到+ε间接近于0的小数然后进行反向传播执行梯度检查或者使用高级的优化算法试着使代价函数 J 达到最小从某个随机选取的参数 θ 开始来打破对称性

Putting It Together总结

当我们在训练一个神经网络时我们要做的第一件事就是搭建网络的大体框架这里我说的框架意思是神经元之间的连接模式这里有如下几种结构

那么我们该如何做出选择呢？对于输入和输出层的单元数是已经确定的，我们只需要考虑隐藏单元的个数以及隐藏层的数目

规则一：只使用单个隐藏层

规则二：如果你使用不止一个隐藏层的话 每一个隐藏层通常都应有相同的单元数

规则三：隐藏单元越多越好 (计算量一般会比较大)

规则四：隐藏单元的数目应该和输入x 的维度即特征的数目匹配 (数量相同或者是它的二倍或者三倍四倍取为稍大于输入特征数目都是可以接受的)

实现神经网络的训练过程这里一共有六个步骤

第一步 构建一个神经网络然后随机初始化权值

第二步 执行前向传播算法也就是对于该神经网络的任意一个输入x(i) 计算出对应的h(x)值也就是一个输出值y的向量

第三步 通过代码计算出代价函数J(θ)

第四步 执行反向传播算法来算出这些偏导数或偏微分项也就是 J(θ)关于参数θ的偏微分

具体来说我们要对所有训练集数据使用一个for循环进行遍历一些比较先进的分解方法可能不需要像这里一样使用 for循环来对所有 m个训练样本进行遍历但是这是你第一次进行反向传播算法所以我建议你最好还是使用一个for循环来完成程序对每一个训练样本进行迭代执行前向传播和反向传播算法具体来说就是我们把x(i) 传到输入层然后执行前向传播和反向传播这样我们就能得到该神经网络中每一层中每一个单元对应的所有这些激励值a(l) 和delta项记得考虑使用正则化项lambda值

第五步 梯度检查

第六步 使用一个最优化算法比如说梯度下降算法或者说是更加高级的优化方法比如说BFGS算法共轭梯度法或者其他一些已经内置到fminunc函数中的方法将所有这些优化方法和反向传播算法相结合这样我们就能计算出使得J(θ)最小的θ；

对于神经网络代价函数 J(θ)是一个非凸函数就是说不是凸函数因此理论上是能够停留在局部最小值的位置实际上梯度下降算法和其他一些高级优化方法理论上都能收敛于局部最小值但一般来讲这个问题其实并不是什么要紧的事尽管我们不能保证这些优化算法一定会得到全局最优值但通常来讲像梯度下降这类的算法在最小化代价函数 J(θ)的过程中还是表现得很不错的通常能够得到一个很小的局部最小值尽管这可能不一定是全局最优值

参考资料

https://www.coursera.org/learn/machine-learning/

小T是我

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
斯坦福大学《Machine Learning》第5周学习笔记

Neural Networks: Learning神经网络：学习Cost Function and Backpropagation代价函数和反向传播Cost Function代价函数假设我们有一个如左边所示的神经网络结构我用大写字母 L 来表示这个神经网络结构的总层数这里 L等于4 用 sl表示第L层的单元的数量也就是神经元的数量这其中不包括L层的偏差单元这里s1 ...
复制链接

扫一扫