OpenAI Codex、DeepMind AlphaCode论文精读阅读笔记

最新推荐文章于 2024-07-14 18:38:32 发布

irony_202

最新推荐文章于 2024-07-14 18:38:32 发布

阅读量4.4k

点赞数

文章标签：机器学习算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/irony_202/article/details/123762934

版权

Codex：
基于GPT的语言模型，用Github上的代码进行微调（有意思的是GPT的卖点就是不用微调）。
模型没怎么改动，主要精力在于准备预训练数据和微调数据集（微调数据集应尽可能和你要进行评估的任务相近）上
目标函数的分数不采用常见的BLUE分数因为相同的子序列多并不意味着写出的代码就有效，因此作者团队自己设计了一个pass@K，即每个词采样softmax分数总和0.95的输出，在这些词里面每次随机采样，最后看生成的答案能否通过测试，若以100次采样中有1次能通过测试则算成功，准确度能达到接近80%。

AlphaCode：
流程与Codex接近，用预训练和微调训练一个transformer模型（带完整的编码器和解码器，编码器适合长序列时双向理解文章），最后结果比Codex要好一点，在编程竞赛上能打败54%的人。
预训练数据也是在github上爬的，比Codex大了5倍，微调数据集采用的是CodeContest
编码器和解码器非对称设计，由目标任务进行归纳偏置。
中间有很多trick

准确度线性增加，数据集和模型参数指数级增长

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
OpenAI Codex、DeepMind AlphaCode论文精读阅读笔记

Codex：基于GPT的语言模型，用Github上的代码进行微调（有意思的是GPT的卖点就是不用微调）。模型没怎么改动，主要精力在于准备预训练数据和微调数据集（微调数据集应尽可能和你要进行评估的任务相近）上目标函数的分数不采用常见的BLUE分数因为相同的子序列多并不意味着写出的代码就有效，因此作者团队自己设计了一个pass@K，即每个词采样softmax分数总和0.95的输出，在这些词里面每次随机采样，最后看生成的答案能否通过测试，若以100次采样中有1次能通过测试则算成功，准确度能达到接近80%。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。