OpenAI GPT解读

最新推荐文章于 2024-08-02 07:06:47 发布

别水贴了

最新推荐文章于 2024-08-02 07:06:47 发布

阅读量1.4k

收藏 2

点赞数

分类专栏： NLP 文章标签：人工智能深度学习算法机器学习 NLP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fengzhou_/article/details/106556677

版权

NLP 专栏收录该内容

18 篇文章 2 订阅

订阅专栏

背景

上篇我们讲了transformer的模型架构，论文《Attention is all you need》也表明了transformer的效果是比RNN和CNN好的，而在ELMo解读里，我们也谈到了训练语言模型再结合具体任务即pre-train的思想，这两者的优势进行简单的结合便得到了OpenAI GPT，具体论文见《Improving Language Understanding by Generative Pre-Training》

介绍

OpenAI GPT主体采用无监督学习的方式，不需要labeled的data进行语言模型的预训练，之后针对具体下游任务进行fine-tune。模型结构如下图所示：
在这里插入图片描述

Unsupervised pre-training

采用传统的单向语言模型训练方式，最大化概率
在这里插入图片描述
和单向ELMo完全一致，唯一不同的是ELMo单向采用LSTM，这里采用多层transformer

以上图取自论文，即用单词embedding和位置embeding线性计算得到h0即输入的embedding，通过多层transformer的decoder（即multihead attention和输入的token进行），最后通过全连接和softmax输出得到预测词的概率。

Supervised fine-tuning

训练完了单向语言模型后，如何继续进行fine-tuning呢。
在这里插入图片描述
这里采用输入序列的最后一个transformer的输出，用另一个 $W_y$ (和预训练不共享)进行计算后softmax得到label，再用反向传播的方式进行fine-tuning，同时作者发现

加入语言模型训练的目标作为辅助，能提升模型效果并加速收敛

总结

OpenAI GPT比较简单回顾下他和ELMo的区别

ELMo采用的是双向语言模型，GPT是单向语言模型
ELMO采用LSTM建立语言模型，GPT采用transformer
GPT在fine-tune的时候，最终目标里加入了语言模型的训练目标最为辅助，提升了收敛速度以及更好的效果

优点是利用了transformer的中attention的优势，采用attention的方式更好对长距离依赖关系进行建模，缺点是不是双向模型。以上各自的优点综合后就得到了BERT，在之后进行讲解

别水贴了

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

别水贴了 CSDN认证博客专家 CSDN认证企业博客

码龄7年

阿里巴巴

26: 原创

7万+: 周排名

127万+: 总排名

8万+: 访问

: 等级

1087: 积分

97: 粉丝

34: 获赞

16: 评论

147: 收藏

私信

关注

热门文章

分类专栏

NLP 18篇
语音识别 8篇

最新评论

语音识别WFST-based dynamic decoders
魔法学徒q: 大佬您好，因为看您分享过几篇语音识别中使用wfst的论文，想到您应该对wfst比较了解。目前我用wenet做训练识别一个官方以外的数据集时，我是使用该数据集语料库和librispeech的lexicon做的lm解码，但是我发现解码结果是把所有音频都识别成了一个单词yeah。请问我是需要重新构建lexicon，还是可能其他地方出错了呢？
StructBERT解读
别水贴了: https://github.com/alibaba/AliceMind/tree/main/StructBERT
TinyBert解读
不吃西红柿丶: 很不错分享～进步的路上一起努力！期待您的关注哈。
TinyBert解读
不正经的kimol君: 大佬的文章让我受益匪浅，如痴如醉，以后的日子还希望能够得到大佬的谆谆指点！
StructBERT解读
漂亮的欧尼酱: 请问这个预训练模型有公布吗？我好像没找到

最新文章

2021年1篇

2020年17篇

2018年5篇

2017年3篇

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。

余额充值