神经网络的工程基础（三）——更优化的最优化算法

最新推荐文章于 2024-08-03 16:19:48 发布

tgbaggio1

最新推荐文章于 2024-08-03 16:19:48 发布

阅读量405

点赞数 10

分类专栏：大语言模型文章标签：神经网络算法机器学习 chatgpt 大语言模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39844018/article/details/139161626

版权

大语言模型专栏收录该内容

19 篇文章 15 订阅

订阅专栏

相关说明

这篇文章的大部分内容参考自我的新书《解构大语言模型：从线性回归到通用人工智能》，欢迎有兴趣的读者多多支持。

本文将讨论更优化的最优化问题算法。

关于大语言模型的内容，推荐参考这个专栏。

内容大纲

相关说明
一、概述
二、算法细节

一、概述

回顾一下随机梯度下降法的设计思路。虽然这个方法放弃了严格的数学严谨性，只采用小批量数据的平均梯度来近似数学上严格定义的梯度，但在实际应用中取得了显著的效果。在学术界，这种算法被称为标准随机梯度下降法（Vanilla SGD）。事实上，我们可以延续这一思路，在标准随机梯度下降法的基础上对梯度进行更深入的处理，以进一步提升算法的性能，如图1所示。

图1

二、算法细节

图1展示了3种不同的梯度深加工的思路，分别是直接使用、动量因素和梯度“归一化”。

直接使用：它代表了标准随机梯度下降法的基本形式，即直接使用小批量数据的平均梯度来更新模型参数。
动量因素：在物理世界中，动量是指物体在运动方向上保持运动的趋势。类比到优化中，动量随机梯度下降法引入了动量项，允许模型参数在更新时累积之前的梯度信息（具体的公式如图2所示）。这种方法有助于跳出局部最小值，加速收敛到全局最小值，代表性算法包括Momentum SGD和Nesterov Momentum。
梯度“归一化”：之前的方法都是全局地使用相同的学习速率，这可能导致不同参数的收敛速度不一致。为了解决这个问题，可以在算法中直接对梯度做类似归一化的处理，从而更好地平衡各个参数的更新效率。这类算法的代表有Adagrad和RMSprop。

图2

将动量因素和梯度归一化这两种优化思路相结合，就得到了一种强大的优化算法——Adam（Adaptive Moment Estimation）。Adam优化算法在实际应用中十分常见，尤其在深度学习领域广泛应用。它的独特之处在于综合了动量因素和梯度归一化的思想，以及自适应地调整学习速率和动量参数，从而在模型训练过程中更高效地更新模型参数。然而，该算法的细节相当烦琐，在此不深入讨论。

关注

10
点赞
踩
9

收藏

觉得还不错? 一键收藏
4
评论
神经网络的工程基础（三）——更优化的最优化算法

最优化算法
复制链接

扫一扫

专栏目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。