#Paper Reading# Improving Language Understanding by Generative Pre-Training

论文题目: Improving Language Understanding by Generative Pre-Training
论文地址: https://www.cs.ubc.ca/~amuham01/LING530/papers/radford2018improving.pdf
论文发表于: OpenAI 2018
论文所属单位: OpenAI

论文大体内容:
本文主要提出了GPT(Generative Pre-Training)模型,通过大模型pre-train + 子任务fine-tune的方式,在NLU系列任务中取得收益。

Motivation
相对Word2Vec通读全文的方式,本文的GPT模型另辟蹊径,采用通过上文预测下文的方式,更符合人的方式。

Contribution
①使用半监督学习的方法(大模型pre-train + 子任务fine-tune)进行NLU任务;
②在12个task中的9个,取得state-of-art的成绩;
GPT的参数量是1.17亿个参数;


1. GPT的主体思想是无监督学习NN大模型,然后监督学习对具体任务进行fine-tune;

2. 与Word2Vec不一样的点,这里大模型pre-train用的是前k个word预测当前word,不会使用后面的word;

3. 无监督学习pre-train大模型,这里使用了12层的transformer,优化Loss如下:

 

4. 监督学习fine-tune,优化Loss如下:

5. 整体Loss使用上面2部分Loss直接线性相加,其中λ=0.5;

6. 本文发现使用pre-train大模型作为supervise learning的辅助,能够提升泛化性和加速收敛;

7. 整体的模型架构图如下,激活函数用了GELU[2]:


实验
8. Dataset

9. 实验结果

 

 
参考资料
[1] https://gluebenchmark.com/leaderboard
[2] GELU https://paperswithcode.com/method/gelu


以上均为个人见解,因本人水平有限,如发现有所错漏,敬请指出,谢谢!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值