大模型系列——论文解读：multi-token prediction

最新推荐文章于 2025-04-10 10:14:14 发布

confiself

最新推荐文章于 2025-04-10 10:14:14 发布

阅读量1.8k

点赞数 25

文章标签：深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012599545/article/details/144510878

版权

在这项工作中，我们建议训练语言模型来预测多个未来的标记，同时导致更高的样本效率.

更具体地说，在训练语料库中的每个位置，我们要求模型使用n个独立的输出头预测以下n个标记，在共享模型主干上操作。将多token预测作为一种辅助训练任务.

模型越大，该方法越有用，与类似的13B参数模型相比，我们的13B参数模型在HumanEval上解决了12 %的问题，在MBPP上解决了17 %的问题。作为一个额外的好处，使用4标记预测训练的模型在推理方面，即使是大批量，也要快3×。

（上）在训练过程中，该模型通过一个共享的主干和4个专用的输出头，同时预测4个未来的令牌。在推理过程中，我们只使用下一个令牌输出头。可选地，其他三个头可以用来加速推理时间。（下）多标记预测改进了MBPP代码任务上的pass@1，随着模型大小显著增加。误差条是通过对数据集样本的引导计算出的90%的置信区间

我们认为，训练llm同时预测多个令牌将推动这些模型获得更好的样本效率。

Contributions

（1）我们提出了一个简单的多令牌预测架构，没有train time or memory 开销

（2）我们提供了实验证据，表明这种训练模式在大规模上是有益的，多达13B个参数的模型平均多解决约15%的代码问题

（3）多令牌预测可以实现自我推测译码，使模型在不同批次的推理时间上更快3倍

，是一种有效的改进，可以训练更强、更快的transformer models

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。