cs231n_ optimizer

最新推荐文章于 2021-08-03 23:34:28 发布

zone_chan

最新推荐文章于 2021-08-03 23:34:28 发布

阅读量216

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/weixin_38646522/article/details/79472160

版权

深度学习专栏收录该内容

20 篇文章 1 订阅

订阅专栏

从上一张的loss function过渡都这一张的optimizer，我们深度学习的训练过程其实就是一个优化的过程，优化的过程我觉得就想是一个盲人下山的问题，盲人想通过最快的速度到达山底，就相当于我们找函数最小值，山底代表我们的loss function的最小值，盲人采用的小碎步往下走，可是他该往哪个方向走最快呢？是的，他可以凭借他身体的感受，在他的周围，用脚去感受，哪个方向最抖，即斜率最大，就往那边走，如果这是一个凸山(类比凸函数)，他会找到一个最低点，当他每次都往最抖的方向走，我们优化的过程也是一样，寻找斜率最大值，不断的逼近函数的最小值。

我们来复习下斜率，翻开我们的高数书，对于一维函数，求这点斜率就是求这点的导数且实际中x不是一个标量，而是一个向量，所以我们需要有多元这个概念，在多元情况下求得的导数，我们也叫作梯度，所以梯度就是偏导数组成的向量，梯度有和x一样的形状，梯度中的每个元素可以告诉我们相关方向上函数f的斜率，正是梯度有这样优秀的特性，所以梯度就成为偏导数的向量，他指向函数增长最快的方向，相应的，负梯度方向就指向了函数下降最快的方向，概括起来，如果你想知道这个地形任意方向的斜率，他就等于这一点上斜率与该点单位方向向量的点积。梯度非常重要，因为它给出了函数在当前点的一阶线性逼近，

所以在深度学习中，我们基本上都是在计算函数的梯度，然后用这些梯度迭代，来更新参数向量。

在计算机上计算梯度的一个简单的方法，是有限差分法(method of finite differences),这就又回到了梯度，我们在W矩阵中加一个很小的逼近于0的值，然后求其导数，当做其梯度的第一个值，然后第一行恢复原值，重复下去，计算出梯度向量，但是这种方法特别慢，如果我们是一个深层次的卷积神经网络，我们会花很长的时间，来做这一操作。可能我们的输入不止这10个，甚至成百上千上万，那么久很慢。

既然这么慢，那怎么办，好了，如果你学过微积分，接下来我们要感谢两个人，当当当当~~~~~，就是下面这两个大佬，我们只需要写下损失的函数，然后使用微积分。

概括的说，我们在实际应用中，我们不会使用数值梯度，挡在进行梯度计算的时候，我们将总是使用解析梯度，(数值梯度与解析梯度百度吧。。。。)

接下来我们讨论下几种optimizer，首先第一个SGD（随机梯度下降法），当我们的数据集很大的时候，比如我们采用imagenet的数据集，那么这个N就很大，所以如果要计算这样的loss的话，那么成本就会很高，可能对着以函数需要上百万次的运算，因为梯度是一个线性运算符，当你试着计算表达式的梯度时，你会发现，误差函数的梯度值是每个单项误差值的总和，所以如果我们需要再次计算梯度，好像就需要我们迭代整个训练数据集，迭代所有的N个样本，N很大，我们需要的时间就很长，所以实际中我们一般采用的是SGD，随机梯度下降法，它并非计算整个训练集的误差跟梯度值，而是在每一次迭代中，选取一小部分训练样本，成为minibatch(小批量)，按照惯例，我们都去2的幂次方，如32,64,128，我们利用这一minibatch，来估算误差总和以及实际梯度，就是随机的，因为你可以把它当做是对真实数值期望的一种蒙特卡洛估计。