CodeX论文精读

最新推荐文章于 2025-03-03 17:21:33 发布

lansfair

最新推荐文章于 2025-03-03 17:21:33 发布

阅读量2.4k

点赞数 1

分类专栏：深度学习基础文章标签： python 机器学习深度学习自然语言处理

本文链接：https://blog.csdn.net/qq_36936443/article/details/125452458

版权

深度学习基础专栏收录该内容

12 篇文章

订阅专栏

论文：《Evaluating Large Language Models Trained on Code》

下载地址：https://arxiv.org/pdf/2107.03374.pdf

简介

Copilot的核心技术：给定函数名和功能描述，可以自动进行代码补全，或者给定代码，给出相关文档

作者团队收集了Github上所有的不重复的python代码，总计179GB，并进行了简单过滤(去掉了过大的文件（>1MB）和过长的代码(>100行或单行超过1000个字符))，在数据集上面训练了一个GPT3模型

效果

作者团队手动编写了164个函数（避免数据泄漏），每个函数包括代码、文档以及单元测试，平均每个问题包括7.7个测试样例，用于评估模型。Codex 12亿参数的模型能解决28.8%的问题，3亿参数的模型能解决13.2%的问题，作者团队又收集了一个跟测试集差不多的数据集用于模型微调，微调以后，得到Codex-S可以解决37.7%的问题。而使用 repeated sampling，即运行一百次模型，只要有一个输出解决了问题就算成功的话，那么Codex-S能解决77.5%的问题（CodeX能解决70.2%），而如果选择100个输出中概率最高的输出，则能解决44.5%的问题。

细节

1. 目标函数没有使用BLEU（困惑度），因为代码不同于自然语言，即使特别相似，但仍然可能不是一个合法的语句，作者使用pass@k来评估模型，即生成n个输出（n>k），从中随机抽取k个输出，输出通过单元测试的概率

稳定实现

2. 输出代码的测试在沙盒中进行

3. 在GPT3原有模型上微调并不能取得更好的效果，但会加速收敛

4. 当模型输出‘\nclass’, ‘\ndef’, ‘\n#’, ‘\nif’, or‘\nprint’等语句时，模型会终止推理，输出结果

5. 使用nucleus sampling（核采样）：选择概率总和p=95%的前k个输出用于评估模型

6. 对输出做softmax得到概率之前，会除以一个超参数Temperature，来调节不同输出之间的概率差距，当pass@k中的采样数k越大时，T越大效果越好

7. 收集了跟测试集类似的数据集用于微调，1）从各种比赛中收集赛题（大约一万个），2）从Continuous Integration中收集了约40000个函数和单元测试，并过滤（CodeX对每个问题生成一百个输出，如果能解决通过测试用例则保留该样本，反之则去掉（不能通过表示该问题太难或测试用例有问题）），在这个数据集上继续训练，训练方式相同，只是该数据集有“标准答案”，得到模型Code-S

8. 使用收集到的github数据集，重新训练一个GPT3模型用于反向生成文档，Codex-D，评测Codex-D模型好坏的方式是，一是人阅读文档评测模型好坏，二是使用生成的文档重新生成代码，看能否通过单元测试