Large Language Monkeys: Scaling Inference Compute with Repeated Sampling

本文是LLM系列文章,针对《Large Language Monkeys: Scaling Inference Compute with Repeated Sampling》的翻译。

摘要

扩展用于训练语言模型的计算量极大地提高了它们的能力。然而,当涉及到推理时,我们通常会将计算量限制为每个问题只能尝试一次。在这里,我们通过增加生成的样本数量来探索推理计算作为缩放的另一个轴。在多个任务和模型中,我们观察到覆盖率——任何尝试解决的问题的比例——随着样本数量的增加而增加,超过四个数量级。在编码和形式证明等领域,所有答案都可以自动验证,覆盖率的增加直接转化为性能的提高。当我们将重复采样应用于SWE bench Lite时,使用DeepSeek-Coder-V2-Instructure解决的问题比例从一个样本的15.9%增加到250个样本的56%,超过了使用更强大前沿模型的单次尝试的43%。此外,使用当前的API定价,用五个样本放大更便宜的DeepSeek模型比为GPT-4o或Claude 3.5 Sonnet的一个样本支付溢价更具成本效益,解决了更多问题。有趣的是,覆盖率和样本数量之间的关系通常是对数线性的,可以用指数幂律建模,这表明存在推理时间缩放律。最后,我们发现,在没有自动验证器的领域中,从多代中识别正确的样本仍然是未来研究的重要方向。在解决GSM8K和math的数学单词问题时,Llama-3

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值