Thermodynamic Natural Gradient Descent

本文提出了一种名为热力学自然梯度下降(TNGD)的混合数模算法,它在特定条件下等效于自然梯度下降(NGD),但避免了高计算成本。TNGD利用模拟系统的热力学特性,实现了与一阶方法相当的计算复杂度。实验表明,TNGD在MNIST分类和语言模型微调任务上优于一阶和二阶优化器,展示了二阶方法与专用硬件结合的潜力。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文是LLM系列文章,针对《Thermodynamic Natural Gradient Descent》的翻译。

摘要

二阶训练方法具有比梯度下降更好的收敛性,但由于其计算开销,在大规模训练的实践中很少使用。这可以被视为硬件限制(由数字计算机施加)。在这里,我们表明,当使用适当的硬件时,自然梯度下降(NGD),一种二阶方法,每次迭代的计算复杂度与一阶方法相似。我们提出了一种新的用于训练神经网络的混合数模算法,该算法在一定的参数范围内等效于NGD,但避免了昂贵的线性系统求解。我们的算法利用了平衡时模拟系统的热力学特性,因此需要一台模拟热力学计算机。训练发生在混合数字-模拟回路中,其中在模拟动力学发生时,以给定的时间间隔计算梯度和Fisher信息矩阵(或任何其他正半定曲率矩阵)。我们在数字上证明了这种方法在分类任务和语言模型微调任务上优于最先进的数字一阶和二阶训练方法。

1 引言

2 相关工作

3 自然梯度下降

4 热力学NGD

5 实验

6 局限性

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值