OpenAI Codex、DeepMind AlphaCode论文精读阅读笔记

Codex:
基于GPT的语言模型,用Github上的代码进行微调(有意思的是GPT的卖点就是不用微调)。
模型没怎么改动,主要精力在于准备预训练数据和微调数据集(微调数据集应尽可能和你要进行评估的任务相近)上
目标函数的分数不采用常见的BLUE分数因为相同的子序列多并不意味着写出的代码就有效,因此作者团队自己设计了一个pass@K,即每个词采样softmax分数总和0.95的输出,在这些词里面每次随机采样,最后看生成的答案能否通过测试,若以100次采样中有1次能通过测试则算成功,准确度能达到接近80%。

AlphaCode:
流程与Codex接近,用预训练和微调训练一个transformer模型(带完整的编码器和解码器,编码器适合长序列时双向理解文章),最后结果比Codex要好一点,在编程竞赛上能打败54%的人。
预训练数据也是在github上爬的,比Codex大了5倍,微调数据集采用的是CodeContest
编码器和解码器非对称设计,由目标任务进行归纳偏置。
中间有很多trick

准确度线性增加,数据集和模型参数指数级增长

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值