深度学习基础之梯度下降

赵卓不凡

已于 2023-09-09 21:38:50 修改

阅读量367

点赞数 2

分类专栏：深度学习文章标签：深度学习机器学习

于 2023-09-09 21:15:31 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sgzqc/article/details/132782074

版权

深度学习专栏收录该内容

59 篇文章 22 订阅

订阅专栏

1. 引言

梯度下降是一种用于最小化（或最大化）损失函数的优化算法。它是机器学习和深度学习中的一个关键概念，通常用于调整学习算法中的参数。

梯度下降背后的核心思想是迭代调整参数以最小化损失函数。它的工作原理是计算损失函数相对于每个参数的梯度，并在减少损失函数的方向上更新参数。

2. 工作机制

该算法的工作机制可以概括为以下四个步骤：

初始化：首先对参数进行初始赋值。
计算梯度：计算损失函数相对于每个参数的梯度。梯度指向最陡峭的上升方向。
更新参数：沿梯度最陡峭上升反方向调整参数以下降到最小值。
迭代：重复梯度计算和参数更新，直到算法收敛到最小值。

在数学形式上，参数更新规则为：
在这里插入图片描述

3. 变种

常见的梯度下降算法的变种如下：

Batch Gradient Descent: 使用整个训练集来计算每一个step的梯度。对于大型数据集，计算成本可能很高。
Stochastic Gradient Descent (SGD): 每一个step仅使用一个训练样本来计算梯度。它可以更快，但可能会更容易振荡。
Mini-Batch Gradient Descent:: 批处理和随机方法之间的折衷。它在每个步骤中使用训练示例的小批量（子集）来计算相应的梯度。

4. 挑战

在使用该算法的时候，有以下注意事项：

选择合适的学习率: 如果学习率α太小，则收敛速度很慢。如果它太大，算法可能会跨过最优解，并且可能无法收敛。
局部最优值：特别是在复杂函数中，梯度下降可能会卡在局部最优值中（尽管在许多实际的深度学习场景中，鞍点比局部最小值更常见）。
特征缩放: 通常需要对输入特征进行归一化或标准化，以使梯度下降有效工作。

5. 高级优化器

目前业内已经开发了几种先进的优化方法来改善和补充梯度下降，特别是在深度学习的背景下。示例包括：

AdaGrad
RMSProp
Adam

这些方法通常将基本梯度下降原理与动态调整学习率、提供动量或两者兼而有之的技术相结合，以提高收敛性和稳定性。

6. 总结

本文简要回顾了梯度下降的基础理论知识，温故而知新，希望大家可以从中受益。
总之，梯度下降是机器学习中的基本优化方法，它提供了一种机制来通过优化最小化（或最大化）目标来更新相应的参数。

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
1
评论
深度学习基础之梯度下降

本文简要回顾了梯度下降的基础理论知识，温故而知新，希望大家可以从中受益。总之，梯度下降是机器学习中的基本优化方法，它提供了一种机制来通过优化最小化（或最大化）目标来更新相应的参数。
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

赵卓不凡 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。