OpenAI在2018年提出来的一个方法——GPT 1.0,GPT 1.0采取预训练+FineTuning两个阶段,它采取Transformer的decoder作为特征抽取器,总共堆叠12个。预训练阶段采用“单向语言模型”作为训练任务,把语言知识编码到decoder里。第二阶段,在第一阶段训练好的模型基础上,通过Finetuning来做具体的NLP任务,迁移能力强。注意在Decoder 中,使用了Masked Self-Attention(不能知道要预测的词),即句子中的每个词都只能对包括自己在内的前面(左侧)所有词进行Attention,这就是单向Transformer。输入为加了【SOS】,但是最后一个词的预测结果不用于语言模型的训练,用于fine-tuning阶段的输入。
1、预训练(无监督样本)
gpt1.0的语言模型是auto regressive language model,由序列的上文推断下文。gpt1.0处理非监督序列文本(𝑥1,𝑥2,…,𝑥𝑚),采用最大似然估计方法来训练,其损失函数为L1(X),不断通过SGD策略调整神经网络的参数,使得神经网络在给定上文的情况下对于下一个字预测的准确率越来越高,损失越来越小。
k为上文预测下文中上文的窗口。其计算过程如下为<
GPT-1和GPT-2的发展
最新推荐文章于 2025-03-06 15:49:06 发布