GPT-1和GPT-2的发展

最新推荐文章于 2025-03-06 15:49:06 发布

hyzhyzhyz12345

最新推荐文章于 2025-03-06 15:49:06 发布

阅读量4.6k

点赞数 1

分类专栏： GPT transformer 文章标签：深度学习自然语言处理

本文链接：https://blog.csdn.net/hyzhyzhyz12345/article/details/104181606

版权

本文介绍了GPT-1和GPT-2的发展，GPT-1采用预训练+FineTuning的方式，利用Transformer的Decoder进行语言建模。在预训练阶段，GPT-1通过无监督学习提高预测下文的准确性。FineTuning阶段，模型参数被迁移以适应特定任务。GPT-2则因大量数据和参数以及改进的Transformer结构展现出强大的生成能力，无需FineTuning即可直接应用于文本生成任务。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

OpenAI在2018年提出来的一个方法——GPT 1.0，GPT 1.0采取预训练+FineTuning两个阶段，它采取Transformer的decoder作为特征抽取器，总共堆叠12个。预训练阶段采用“单向语言模型”作为训练任务，把语言知识编码到decoder里。第二阶段，在第一阶段训练好的模型基础上，通过Finetuning来做具体的NLP任务，迁移能力强。注意在Decoder 中，使用了Masked Self-Attention（不能知道要预测的词），即句子中的每个词都只能对包括自己在内的前面（左侧）所有词进行Attention，这就是单向Transformer。输入为加了【SOS】，但是最后一个词的预测结果不用于语言模型的训练，用于fine-tuning阶段的输入。在这里插入图片描述
1、预训练（无监督样本）
gpt1.0的语言模型是auto regressive language model，由序列的上文推断下文。gpt1.0处理非监督序列文本(𝑥1,𝑥2,…,𝑥𝑚)，采用最大似然估计方法来训练，其损失函数为L1(X)，不断通过SGD策略调整神经网络的参数，使得神经网络在给定上文的情况下对于下一个字预测的准确率越来越高，损失越来越小。在这里插入图片描述
k为上文预测下文中上文的窗口。其计算过程如下为<

最低0.47元/天解锁文章