在这项工作中,我们建议训练语言模型来预测多个未来的标记,同时导致更高的样本效率.
更具体地说,在训练语料库中的每个位置,我们要求模型使用n个独立的输出头预测以下n个标记,在共享模型主干上操作。将多token预测作为一种辅助训练任务.
模型越大,该方法越有用,与类似的13B参数模型相比,我们的13B参数模型在HumanEval上解决了12 %的问题,在MBPP上解决了17 %的问题。作为一个额外的好处,使用4标记预测训练的模型在推理方面,即使是大批量,也要快3×。
(上)在训练过程中,该模型通过一个共享的主干和4个专用的输出头,同时预测4个未来的令牌。在推理过程中,我们只使用下一个令牌输出头。可选地,其他三个头可以用来加速推理时间。(下)多标记预测改进了MBPP代码任务上的pass@1,随着模型大小显著增加。误差条是通过对数据集样本的引导计算出的90%的置信区间
我们认为,训练llm同时预测多个令牌将推动这些模型获得更好的样本效率。
Contributions
(1)我们提出了一个简单的多令牌预测架构,没有train time or memory 开销
(2)我们提供了实验证据,表明这种训练模式在大规模上是有益的,多达13B个参数的模型平均多解决约15%的代码问题
(3)多令牌预测可以实现自我推测译码,使模型在不同批次的推理时间上更快3倍
,是一种有效的改进,可以训练更强、更快的transformer models