#今日论文推荐# 你还在纠结单个GPU怎么训练GPT-3吗？快来看看HP调优新范式吧_tensor programs v: tuning large neural networks vi-CSDN博客

#今日论文推荐# 你还在纠结单个GPU怎么训练GPT-3吗？快来看看HP调优新范式吧

伟大的科学成就不能仅靠反复试验取得。在构建大规模人工智能系统时，基础研究所形成的理论见解能够帮助研究员大大减少试错次数并提高成本效益。在今天的文章中，微软研究院的研究员们将介绍基础研究如何首次能够调整庞大的神经网络。由于庞大的神经网络训练十分昂贵，所以研究员们通过展示特定参数化在不同模型大小上保留最佳超参数来解决这一问题。通过与 OpenAI 合作，微软研究院的研究员们在一系列现实场景中也验证了该技术的实际优势。
伟大的科学成就不能仅靠反复试验取得。例如太空计划中的每一次发射都是基于数百年的空气动力学、推进和天体等基础研究。同样，在构建大规模人工智能系统时，基础研究大大减少了试错次数，效益明显。
超参数（Hyperparameter，HP）调优是深度学习的关键，但也是一个昂贵的过程，对于具有数十亿参数的神经网络来说更是如此。假如 HP 选择不当，会导致模型性能不佳、训练不稳定。当训练超大型深度学习模型时，这些问题更加严重。
最近，有研究表明不同的神经网络参数化会导致不同的无限宽度极限（infinite-width limits），他们提出了最大更新参数化（Maximal Update Parametrization，µP），该参数化的无限宽极限是实现“最大”特征学习的。直观地说，它确保每一层激活在训练期间的更新大小保持一致，而不管宽度如何。相比之下，虽然标准参数化（standard parametrization，SP）在初始化时保证了激活的一致性，但实际上在训练时，由于每层学习率的不平衡，导致激活在宽模型中爆炸。
来自微软和 OpenAI 的研究者首次提出了基础研究如何调优大型神经网络（这些神经网络过于庞大而无法多次训练）。他们通过展示特定参数化保留不同大小模型的最佳超参数来实现这一点。利用 µP 将 HP 从小型模型迁移到大型模型。也就是说，该研究在大型模型上获得了接近最优的 HP。
本文的想法非常简单，论文中引入了一种特殊参数化 µP，窄和宽的神经网络共享同一组最优超参数。即使宽度→∞也是如此。

论文题目：Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer
详细解读：https://www.aminer.cn/research_report/627c8a2a7cb68b460fb60c45?download=falsehttps://www.aminer.cn/research_report/627c8a2a7cb68b460fb60c45?download=false
AMiner链接：https://www.aminer.cn/?f=cs