本文是LLM系列文章,针对《Large Language Monkeys: Scaling Inference Compute with Repeated Sampling》的翻译。
大型语言猴子:重复采样的缩放推理计算
摘要
扩展用于训练语言模型的计算量极大地提高了它们的能力。然而,当涉及到推理时,我们通常会将计算量限制为每个问题只能尝试一次。在这里,我们通过增加生成的样本数量来探索推理计算作为缩放的另一个轴。在多个任务和模型中,我们观察到覆盖率——任何尝试解决的问题的比例——随着样本数量的增加而增加,超过四个数量级。在编码和形式证明等领域,所有答案都可以自动验证,覆盖率的增加直接转化为性能的提高。当我们将重复采样应用于SWE bench Lite时,使用DeepSeek-Coder-V2-Instructure解决的问题比例从一个样本的15.9%增加到250个样本的56%,超过了使用更强大前沿模型的单次尝试的43%。此外,使用当前的API定价,用五个样本放大更便宜的DeepSeek模型比为GPT-4o或Claude 3.5 Sonnet的一个样本支付溢价更具成本效益,解决了更多问题。有趣的是,覆盖率和样本数量之间的关系通常是对数线性的,可以用指数幂律建模,这表明存在推理时间缩放律。最后,我们发现,在没有自动验证器的领域中,从多代中识别正确的样本仍然是未来研究的重要方向。在解决GSM8K和math的数学单词问题时,Llama-3