本文是LLM系列文章,针对《Thermodynamic Natural Gradient Descent》的翻译。
摘要
二阶训练方法具有比梯度下降更好的收敛性,但由于其计算开销,在大规模训练的实践中很少使用。这可以被视为硬件限制(由数字计算机施加)。在这里,我们表明,当使用适当的硬件时,自然梯度下降(NGD),一种二阶方法,每次迭代的计算复杂度与一阶方法相似。我们提出了一种新的用于训练神经网络的混合数模算法,该算法在一定的参数范围内等效于NGD,但避免了昂贵的线性系统求解。我们的算法利用了平衡时模拟系统的热力学特性,因此需要一台模拟热力学计算机。训练发生在混合数字-模拟回路中,其中在模拟动力学发生时,以给定的时间间隔计算梯度和Fisher信息矩阵(或任何其他正半定曲率矩阵)。我们在数字上证明了这种方法在分类任务和语言模型微调任务上优于最先进的数字一阶和二阶训练方法。