大模型系列——论文解读:multi-token prediction

在这项工作中,我们建议训练语言模型来预测多个未来的标记,同时导致更高的样本效率.

更具体地说,在训练语料库中的每个位置,我们要求模型使用n个独立的输出头预测以下n个标记,在共享模型主干上操作。将多token预测作为一种辅助训练任务.

模型越大,该方法越有用,与类似的13B参数模型相比,我们的13B参数模型在HumanEval上解决了12 %的问题,在MBPP上解决了17 %的问题。作为一个额外的好处,使用4标记预测训练的模型在推理方面,即使是大批量,也要快3×。

(上)在训练过程中,该模型通过一个共享的主干和4个专用的输出头,同时预测4个未来的令牌。在推理过程中,我们只使用下一个令牌输出头。可选地,其他三个头可以用来加速推理时间。(下)多标记预测改进了MBPP代码任务上的pass@1,随着模型大小显著增加。误差条是通过对数据集样本的引导计算出的90%的置信区间

我们认为,训练llm同时预测多个令牌将推动这些模型获得更好的样本效率。

Contributions

(1)我们提出了一个简单的多令牌预测架构,没有train time or memory 开销

(2)我们提供了实验证据,表明这种训练模式在大规模上是有益的,多达13B个参数的模型平均多解决约15%的代码问题

(3)多令牌预测可以实现自我推测译码,使模型在不同批次的推理时间上更快3倍

,是一种有效的改进,可以训练更强、更快的transformer models

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值