GPT系列：Codex【使用GPT-3完成代码自动生成任务】

u013250861

已于 2023-06-17 11:30:12 修改

阅读量3.4k

点赞数 3

分类专栏： LLM 文章标签：人工智能

于 2023-02-04 19:46:53 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013250861/article/details/128884871

版权

LLM 专栏收录该内容

108 篇文章 224 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

Evaluating Large Language Models Trained on Code

根据函数名和注释自动补全代码
根据你写的代码，猜出你接下来可能要写的代码
自动补充测试样例
支持多种语言
....

总之，就是可以帮你写代码

简介

提出了一个新问题：代码补全
采用的解决方案是：将GitHub上采集到的Python代码作为数据集重新训练一下GPT-3，他就把这一套权重叫做Codex
一个值得注意的点：
1. 代码补全这个任务的特殊性：具体来说，传统的NLP任务，生成的结果越接正确答案，那么模型得分越高，但是代码不是这样的，代码但凡有一点点小Bug，都可能造成毁灭性的结果。所以对于代码补全任务，判断生成代码的正确与否就是使用的单元测试（unit test）。---所以对于代码补全任务需要新的评估指标和数据集。

评估

评估指标---pass@k

NLP中最常见的评估方法是BLUE score（bilingual evaluation understudy）即：双语互译质量评估辅助工具。BLEU的设计思想：机器翻译结果越接近专业人工翻译的结果，则越好。BLEU算法实际上就是在判断

了解本专栏

超级会员免费看

关注

3
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
GPT系列：Codex【使用GPT-3完成代码自动生成任务】

针对代码补全这样一个特殊问题，作者提出了一个pass@k的一个指标，生成k个结果，只要有一个通过就算通过（k如果比较大，就会对模型的能力过度乐观，当k比较大的时候，虽然模型分数比较高，但是在使用时，会给用户返回一大堆代码，让用户去选，这个也是很难的，所以说需要排算法，但这个分数并没有反映排序）。如果用一个较小的T，最好的几个候选，概率较大，采样的时候总能把最好的几个取出来，如果用一个较大的T，不是最好的几个候选也能被采样出来。采样次数和T之间的关系：不同的T，随着采样次数的增加，pass@k的变化。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。