揭秘LLM大模型训练:人工智能的下一个突破口?

大模型(LLM)是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器,这有助于它们在各种NLP任务上取得令人印象深刻的表现。

2022年底,OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT,由于其优秀的表现,ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题,吸引了广大科研人员和开发者的关注和参与。
在这里插入图片描述
本周精选了5篇LLM领域的优秀论文,为了方便大家阅读,只列出了论文标题、AMiner AI综述等信息,如果感兴趣可点击查看原文,PC端数据同步(收藏即可在PC端查看),每日新论文也可登录小程序查看。

如果想要对某篇论文进行深入对话,可以直接复制论文链接到浏览器上或者直达AMiner AI页面:
https://www.aminer.cn/chat/g/explain?f=cs

1.Branch-Train-MiX: Mixing Expert LLMs into a Mixture-of-Experts LLM

这篇论文主要介绍了一种名为Branch-Train-MiX (BTX)的方法,用于训练大型语言模型(LLMs)以具备多个专业领域的能力,如编程、数学推理和世界知识。BTX方法从种子模型开始,以高效并行的方式训练各个领域的专家,然后将这些专家的参数整合到混合专家层(MoE),并进行MoE微调阶段以学习令牌级别的路由。BTX方法扩展了两个特殊情况,分别是没有MoE微调阶段的Branch-Train-Merge方法和省略了异步训练专家阶段的稀疏升级方法。与替代方法相比,BTX实现了最佳的准确性和效率权衡。
在这里插入图片描述
链接:https://www.aminer.cn/pub/65f108f113fb2c6cf6acf660/?f=cs

2.Guiding LLMs The Right Way: Fast, Non-Invasive Constrained Generation

这篇论文主要介绍了一种新的算法DOMINO,用于在生成文本时强制实施严格的格式约束。传统的约束解码方法在生成过程中会产生性能开销,并且如果它们没有正确对齐底层语言模型子词 vocabulary 与外部的约束,这些方法还会显著降低任务精度。为了避免这些问题,作者提出了DOMINO算法,它可以以完全子词对齐的方式强制约束,同时利用预计算和投机解码,实现与无约束解码几乎没有开销,并且在某些情况下甚至可以实现近2倍的加速,从而大幅超越现有方法。
在这里插入图片描述
链接:https://www.aminer.cn/pub/65f108e413fb2c6cf6acd20f/?f=cs

3.Human Alignment of Large Language Models through Online Preference Optimisation

这篇文章主要介绍了人类对大型语言模型输出的对齐方法。文章指出,确保语言模型输出与人类偏好一致对于保证用户体验的使用性、安全性和愉悦性是至关重要的。近年来,人类对齐已经得到了广泛的研究,并出现了一些新的方法,如基于人类反馈的强化学习(RLHF)、直接策略优化(DPO)和序列概率校准(SLiC)。文章展示了两种最近的对齐方法,即身份策略优化(IPO)和纳什镜像下降(Nash-MD)之间的等价性;引入了一种IPO的一般化方法,名为IPO-MD,它利用了Nash-MD提出的正则化采样方法。文章指出,尽管IPO是一个离线方法,而Nash-MD是一个使用偏好模型的在线方法,但当考虑IPO的在线版本时,这两种方法的等价性可以得到证明。通过优化IPO损失,生成由在线策略和注释的偏好模型生成的数据流,然后通过自我播放找到偏好模型的纳什均衡。基于这种等价性,文章引入了IPO-MD算法,该算法使用混合策略(在线和参考策略)生成数据,与一般的Nash-MD算法类似。
在这里插入图片描述
链接:https://www.aminer.cn/pub/65f25a4813fb2c6cf6e124b2/?f=cs

4.Language models scale reliably with over-training and on downstream tasks

这篇论文探讨了语言模型在大规模训练和下游任务中的扩展性。作者指出,虽然扩展法则对于开发语言模型是一个有用的指导,但现有的扩展研究之间仍然存在差距,比如扩展研究通常在计算最优的训练范式(即“Chinchilla最优”范式)中进行,但在实践中,模型常常过度训练以降低推理成本。此外,扩展法则主要预测下一个令牌预测的损失,但最终模型是根据下游任务的性能进行比较的。为了解决这两个问题,作者创建了一个测试平台,包括104个在三个数据分布上使用不同数量令牌训练的模型,参数范围从0.011B到6.9B。首先,作者研究了在过度训练范式下的扩展性。他们拟合了扩展法则,这些法则可以外推出模型参数数量和训练令牌与参数比例的关系,从而使他们能够预测一个1.4B参数、900B令牌运行(即32倍过度训练)和6.9B参数、138B令牌运行的验证损失——所有这些预测都是基于计算量减少300倍的实验。其次,作者通过幂律将语言模型的困惑度与其下游任务性能相关联。他们利用这个法则来预测上述两个模型在下游任务中的顶级错误平均值,所使用的实验计算量减少了20倍。
在这里插入图片描述
链接:http://www.aminer.cn/pub/65f25a4813fb2c6cf6e12446/?f=cs

5.Simple and Scalable Strategies to Continually Pre-train Large Language Models

这篇文献主要介绍了一种简单且可扩展的策略,用于持续预训练大型语言模型(Large Language Models,LLMs)。传统的语言模型会在新的数据出现后重新开始训练,这种方式计算成本很高。该研究表明,通过结合学习率(LR)的重新加热(re-warming)、学习率的重新衰减(re-decaying)以及重新使用之前数据的方法,可以有效地匹配从零开始重新训练所有可用数据得到的性能,这在最终损失和语言模型评估基准测试中得到了验证。具体来说,该策略在面对两个常用的LLM预训练数据集之间的弱但现实的数据分布变化(例如,英语→英语)以及更强的分布变化(英语→德语)时,在405M参数的模型规模上,使用了大量的数据集(数百亿个标记)也取得了成功。在选择弱但现实的分布变化进行更大规模实验时,他们发现这种持续学习策略可以与10B参数的LLM的重新训练基线相匹配。
在这里插入图片描述
链接:http://www.aminer.cn/pub/65f25a4913fb2c6cf6e1253c/?f=cs


AMiner AI入口:
https://www.aminer.cn/chat/g/explain?f=cs

  • 22
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值