Improving Language Understanding by Generative Pre-Training阅读笔记

最新推荐文章于 2024-06-16 16:18:50 发布

Leokb24

最新推荐文章于 2024-06-16 16:18:50 发布

阅读量5.4k

点赞数 2

分类专栏：论文阅读文章标签： GPT 论文阅读

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/leo_95/article/details/89965558

版权

本文是关于《Improving Language Understanding by Generative Pre-Training》的阅读笔记，重点介绍了GPT模型如何通过无监督预训练和有监督的fine-tuning提升语言理解能力。在预训练阶段，GPT利用Transformer的解码器部分作为语言模型；在fine-tuning阶段，结合标注数据进行监督训练。实验显示，GPT在多个NLP任务上取得优秀表现，尤其是在预训练后使用Transformer进行微调时效果显著。

摘要由CSDN通过智能技术生成

文章目录

概述
Framwork
- 1. 无监督预训练
- 2.有监督的fine-tuning
实验
- 实验设置

概述

要说最近NLP最显著的成果, 自然是几乎无人不知, 无人不晓的Bert.
但其实在Bert出现几个月之前, OpenAI在《Improving Language Understanding by Generative Pre-Training》就提出一个很相似的模型GPT, 取得非常不错的效果, 只可惜没得到太多关注.

模型的目标是学习一个通用的表示，能够在大量任务上进行应用。这篇论文的亮点主要在于，他们利用了Transformer网络代替了LSTM作为语言模型来更好的捕获长距离语言结构。然后在进行具体任务有监督微调时使用了语言模型作为附属任务训练目标。最后在12个NLP数据集上进行了实验，9个任务获得了SOTA。

Framwork

在这里插入图片描述
模型训练分为两个阶段:

第一阶段在大规模语料上训练语言模型
第二阶段为fine-tuing阶段. 利用标注数据进行监督训练

1. 无监督预训练

语言模型极大似然函数为:
在这里插入图片描述
其中, k表示上下文窗口大小.

GPT利用多层Transformer的解码器部分作为语言模型.
在这里插入图片描述

2.有监督的fine-tuning

做有监督的分类任务来进行fine-tuning
在这里插入图片描述

最低0.47元/天解锁文章

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
Improving Language Understanding by Generative Pre-Training阅读笔记

文章目录概述Framwork1. 无监督预训练2.有监督的fine-tuning实验实验设置无监督预训练模型规格Fine-tuning细节实验结果概述要说最近NLP最显著的成果, 自然是几乎无人不知, 无人不晓的Bert.但其实在Bert出现几个月之前, OpenAI在《Improving Language Understanding by Generative Pre-Training》就...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。