机器学习中的梯度下降法总结

最新推荐文章于 2022-10-17 20:08:51 发布

W-S-M

最新推荐文章于 2022-10-17 20:08:51 发布

阅读量777

点赞数

分类专栏：学习笔记文章标签：梯度下降算法机器学习算法

本文链接：https://blog.csdn.net/C_arolMM/article/details/78662508

版权

学习笔记专栏收录该内容

7 篇文章 0 订阅

订阅专栏

adapted_gradient = previous_gradient + ((gradient – previous_gradient) * (1 – beta1))
gradient_component = (gradient_change – previous_learning_rate)
adapted_learning_rate = previous_learning_rate + (gradient_component * (1 – beta2))
update = adapted_learning_rate * adapted_gradient
parameter = parameter – update

上述代码中的 beta1 和 beta2 是用来保持梯度和学习率不变的常量。

与此同时，还存在如 l-BFGS 等这样的二阶微分算法。你可以在 scipy 数据库中看到这种算法的执行情况。

4. 梯度下降法的代码实现

这是定义普通梯度下降算法的主代码：

params = [weights_hidden, weights_output, bias_hidden, bias_output]

def sgd(cost, params, lr=0.05):
grads = T.grad(cost=cost, wrt=params)
updates = []

for p, g in zip(params, grads):
updates.append([p, p - g * lr])
return updates

updates = sgd(cost, params)

为了能更好的理解上述代码，接下来我们会分成不同的步骤详细讲解。

我们把 sgd 这个含有参数的函数分别定义为 cost、params 和 lr，分别代表上述例子中的 J(θ)，θ是深度学习算法和学习率的参数。我们将默认的学习率设为0.05，但是学习率可以随着我们的喜好轻易地发生改变。

def sgd(cost, params, lr=0.05):

然后，我们定义关于这个成本函数的梯度参数。在这里，我们利用 theano 数据库来寻找梯度，T是我们将导入的 theano 数据：

grads = T.grad(cost=cost, wrt=params)

最后，通过所有参数的迭代找出所有可能需要更新的参数。大家可以看到，在这里我们使用的是普通梯度下降算法。

for p, g in zip(params, grads):
updates.append([p, p - g * lr]

5. 不同梯度下降法的选择

对于上述提到的各种梯度下降算法，各有利弊。接下来，我会介绍一些能够帮助大家找到正确算法的实用方法。

如果是为了快速地获得原型，那就选取诸如Adam/Adagrad这样的自适应技术，这会让我们事半功倍，并且无须大量调优超参数。
如果是为了得到最好的结果，那就选取普通的梯度下降算法或者动量梯度下降算法。虽然利用梯度下降算法达到预期效果的过程很缓慢，但是大部分的结果比自适应技术要好得多。
如果你的数据偏小而且能够适应一次迭代，那么就可以选择诸如 l-BFGS这样的二阶技术。这是因为，二阶技术虽然速度非常快并且非常准确，但是只适用于数据偏小的情况。
还有一种是利用学习特性来预测梯度下降学习率的新兴方法（虽然我还没有尝试过这种新兴方法，但是看起来前途无量）。可以仔细地阅读一下这篇文章。

目前，无法学习神经网络算法的原因由很多。但是如果你能检查出算法出现错误的地方，对学习神经网络算法将会非常有帮助。

当选用梯度下降算法时，你可以看看这些能帮助你规避问题的小提示：