GPT系列第一篇论文:Improving Language Understanding by Generative Pre-Training
abstract
在未标记文本语料库上对语言模型进行生成式预训练,然后对每个特定任务进行区分性微调。
method
训练过程包括两个阶段。第一阶段是在大型文本语料库上进行自监督训练。第二阶段在带标签数据进行微调。
模型的整体架构
无监督的预训练
给定一系列无监督tokens,最大化下列损失:
其中,k为上下文窗口的大小
使用了multi-layer Transformer decoder:
有监督的微调
通过transformer提取得到特折,然后再连接一个全连接层得到输出结果
微调的最终的损失函数:
experiment
模型架构
12层 decoder-only transformer,具有masked自注意头(768 dimensional states and 12 attention heads)