基于Amos优化器思想推导出来的一些“炼丹策略”

本文从Amos优化器出发,探讨如何适应不同初始化和参数化设置学习率,权重衰减率的选择,以及学习率变化策略。通过对优化器更新规则的推导,提出了一个适用于不同参数尺度的更新量自适应方法,简化了深度学习模型训练的调参过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

 f40f79bea35cd6a2c6f84aecc604d302.gif

©PaperWeekly 原创 · 作者 | 苏剑林

单位 | 追一科技

研究方向 | NLP、神经网络

如果将训练模型比喻为“炼丹”,那么“炼丹炉”显然就是优化器了。据传 AdamW 优化器是当前训练神经网络最快的方案,这一点笔者也没有一一对比过,具体情况如何不得而知,不过目前做预训练时多数都用 AdamW 或其变种 LAMB 倒是真的。然而,正如有了炼丹炉也未必能炼出好丹,即便我们确定了选择 AdamW 优化器,依然有很多问题还没有确定的答案,比如:

1. 学习率如何适应不同初始化和参数化?

2. 权重衰减率该怎么调?

3. 学习率应该用什么变化策略?

4. 能不能降低优化器的显存占用?

尽管在实际应用时,我们大多数情况下都可以直接套用前人已经调好的参数和策略,但缺乏比较系统的调参指引,始终会让我们在“炼丹”之时感觉没有底气。在这篇文章中,我们基于 Google 最近提出的 Amos 优化器的思路,给出一些参考结果。

9c9abe1d8fd9486c3f79e2dd92278e30.png

基础回顾

Amos 优化器出自最近的论文《Amos: An Adam-style Optimizer with Adaptive Weight Decay towards Model-Oriented Scale》[1],它对上述几个问题都推导了比较完整的推导,并通过实验证实了它的有效性。然而,原论文的推导实在是不好读,各种记号和估计都过于随意,给人很“凌乱”感觉。不过好在 Amos 的思想还不算复杂,我们可以借用一下。

在开始推导之前,我们不妨先回顾一下对于上述几个问题,现有的解决方案是怎样的。

首先,第一个问题,大家可能不大理解“初始化”和“参数化”分别是什么含义,其实这就是模型权重的两种设置方式,常见的就是一个 的矩阵,一般用“均值为 0、方差为1/n”的方式初始化,详细介绍可以参考笔者之前《从几何视角来理解模型参数的初始化策略》[2]、《浅谈Transformer的初始化、参数化与标准化》[3]。

从“方差为 1/n”我们就可以看到,不同参数有着不同的尺度(或者说数量级),如果我们用同一个学习率更新所有参数,那么就会导致每个参数的更新幅度不一样。这个问题笔者觉得比较优雅的解决方案就是 LAMB 优化器,它每次更新的模长直接取决于参数本身的模长,学习率只是用来描述相对更新量的大小。

至于权重衰减率问题,至少在预训练领域,笔者观察到的是都是沿用最早的选择 0.01,没有发现去调整该参数的工作。而对于学习率变化策略,大家都知道应该要将学习率慢慢降到零,但具体应该选用什么什么下降策略,暂时也没有太多的理论指导,多数结果也只是实验总结出来的。

最后,关于节省显存问题,比较经典的工作就是 AdaFactor 优化器,笔者之前在《AdaFactor优化器浅析(附开源实现)[4]》也有过介绍。降低优化器显存占用的主要就两个思路,一是去掉动量,二是对二阶矩做低秩分解,Amos 本质上也是沿用了这两个思路。

afef1d7cdc87f1c5d273a9c3db17922d.png

问题设置

本文主要关心开头的前三个问题,希望能够推导出一些“即插即用”的结果。首先,我们将优化器的更新规则简写成:

c36a6e6ee86577d2b772ed80bcc7c753.png

其实 分别代表 时刻的参数值, 代表 时刻的更新向量(依赖于任务和数据),而标量 (向量的每个元素都大于 0)代表 时刻的学习率。

在MATLAB中对数据进行多项式内插并绘制曲线图是数学建模和数据可视化的重要环节。《MATLAB曲线拟合与数据内插技术详解》将为你提供深入的技术解析和实战指导。 参考资源链接:[MATLAB曲线拟合与数据内插技术详解](https://wenku.csdn.net/doc/7rinsov8av?spm=1055.2569.3001.10343) 首先,你需要确保你的数据是散点形式,且已经导入MATLAB中。然后,使用MATLAB的interp1函数进行一维多项式内插。interp1函数能够根据一组已知的散点数据,估算出这些数据点之间的未知值。 假设你有一组一维散点数据x和y,你可以通过以下代码进行二次多项式内插: ```matlab x = [1, 2, 3, 4, 5]; % 已知的散点数据 y = [1, 4, 9, 16, 25]; % 已知的散点数据对应的函数值 % 使用interp1进行二次多项式内插 xx = linspace(min(x), max(x), 100); % 生成一个更密集的x轴数据点数组 yy = interp1(x, y, xx, 'poly', 2); % 'poly', 2指定二次多项式内插 % 绘制原始散点和内插后的平滑曲线 plot(x, y, 'o', xx, yy); % 使用'o'标记原始数据点 title('多项式内插曲线图'); xlabel('X轴'); ylabel('Y轴'); ``` 上述代码首先定义了原始散点数据x和y,然后使用interp1函数进行二次多项式内插,其中'poly', 2指定了多项式的阶数。最后,使用plot函数绘制出了原始散点以及通过内插得到的平滑曲线。 通过以上步骤,你可以在MATLAB中对散点数据进行多项式内插,并绘制出平滑的曲线图。为了进一步深入理解内插技术和曲线拟合,建议详细阅读《MATLAB曲线拟合与数据内插技术详解》,该资源不仅涵盖了基础概念,还包括高级技巧和案例研究,帮助你在数值分析和工程计算中达到新的高度。 参考资源链接:[MATLAB曲线拟合与数据内插技术详解](https://wenku.csdn.net/doc/7rinsov8av?spm=1055.2569.3001.10343)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值