论文笔记--Improving Language Understanding by Generative Pre-Training

文章介绍了GPT1模型,该模型通过无监督的生成式预训练和有监督的微调提升语言理解能力。在预训练阶段,使用Transformer架构预测序列中的下一个token,然后在标记数据集上进行微调,适用于文本分类、相似度分析等NLP任务。GPT1展示了生成式预训练的有效性,成为后续大语言模型如GPT2、GPT3和ChatGPT的基石。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. 文章简介

  • 标题:Improving Language Understanding by Generative Pre-Training
  • 作者:Alec Radford, Karthik Narasimhan, Tim Salimans, Ilya Sutskever
  • 日期:2018

2. 文章导读

2.1 概括

  文章利用了Transformer架构,通过无监督的生成式(generative)预训练和有监督的微调相结合方式得到了适应多种NLP下游任务的模型。文章在包括文本分类、文本相似度分析、问答和知识推理四个任务的数据集上进行了数值实验。结果表明,生成式预训练在9/12个数据集上取得了State-of-the-art水平。文章提出的GPT训练方式是当前LLM的一种主流训练方式。
  文章整体架构如下
文章架构

2.2 文章重点技术

2.2.1 无监督预训练

  在预训练阶段,文章提出了通过生成式的预训练来学习语言结构,即通过前面的token预测当前的token,结构化表示为 L 1 ( U ) = ∑ i log ⁡ P ( u i ∣ u i − 1 , … , u i − k ; Θ ) L_1(\mathcal{U}) = \sum_i \log P(u_i| u_{i-1}, \dots, u_{i-k}; \Theta) L1(U)=ilogP(uiu

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值