本文是LLM系列文章,针对《CODEFUSION: A Pre-trained Diffusion Model for Code Generation》的翻译。
摘要
想象一下,一个开发人员只能更改他们的最后一行代码——他们需要多久从零开始编写一个函数才能正确?从自然语言生成代码的自回归模型也有类似的限制:它们不容易重新考虑以前生成的token。我们介绍了CODEFUSION,这是一种预先训练的扩散代码生成模型,通过对以编码的自然语言为条件的完整程序进行迭代去噪来解决这一限制。我们在Bash、Python和Microsoft Excel条件格式(CF)规则的自然语言到代码生成任务中评估了CODEFUSION。实验表明,CODEFUSION(75M参数)在top-1精度上与最先进的自回归系统(350M–175B参数)不相上下,并在top-3和top-