5 分析Analysis
层数转移的影响Impact of number of layers transferred
我们观察了从无监督预训练到监督目标任务转移可变层数的影响。图2(左)展示了在转移层数不同的情况下,我们的方法在MultiNLI和RACE上的性能表现。我们观察到标准结果,即转移嵌入可以改善性能,并且对于MultiNLI的完全转移,每个Transformer层都提供了高达9%的额外好处。这表明预训练模型中的每一层都包含对解决目标任务有用的功能。
零样本行为Zero-shot Behaviors
我们希望更深入地理解为什么Transformer的语言模型预训练是有效的。一个假设是,基础生成模型学会了执行许多我们评估的任务,以提高其语言建模能力,而且相比于长短期记忆(LSTM)模型,Transformer更有条理的注意力机制(attentional memory)有助于实现迁移学习。我们设计了一系列启发式解决方案,这些方案利用基础生成模型执行任务,而无需进行监督微调。我们在图2(右)中可视化了这些启发式解决方案在生成式预训练过程中的有效性。我们观察到这些启发式方法的性能稳定且随训练不断提高,这表明生成式预训练支持学习多种与任务相关的功能。我们还观察到LSTM在零样本性能上表现出更高的方差,这表明Transformer架构的归纳偏置有助于迁移学习。
对于CoLA(语言可接受性)
我们将每个示例的分数设置为生成模型为其分配的平均标记对数概率,并通过阈值设置来做出预测。对于SST-2(情感分析),我们在每个示例后面附加了标记“very”,并限制语言模型的输出分布仅包含“positive”和“negative”这两个词,然后猜测它分配给更高概率的标记作为预测。对于RACE(问题回答),我们根据文档和问题选择生成模型分配最高平均标记对数概率的答案。对于DPRD[46](Winograd模式),我们将限定代词替换为两个可能的指代词,并预测在替换后生成模型分配给其余序列部分更高平均标记对数概率的解析。
消融研究Ablation studies
我们进行了三种不同的消融研究(表5)。首先,我们研究了在微调过程中不使用辅助语言模型(LM)目标时我们方法的性能。我们观察到,辅助目标在自然语言推理(NLI)任务和QQP上都有帮助。总体来看,趋势表明较大的数据集从辅助目标中受益,而较小的数据集则不然。其次,我们通过将Transformer与具有相同框架的单层2048单元LSTM进行比较,分析了Transformer的效果。我们观察到,使用LSTM而不是Transformer时,平均得分下降了5.6分。LSTM仅在MRPC数据集上优于Transformer。最后,我们还与直接在监督目标任务上训练的Transformer架构进行了比较,没有进行预训练。我们观察到,缺乏预训练对所有任务的性能都有损害,与我们的完整模型相比,性能下降了14.8%。
6 结论
我们引入了一个框架,通过生成式预训练和判别式微调,使用单个与任务无关的模型实现强大的自然语言理解。
通过在具有长段连续文本的多样化语料库上进行预训练,我们的模型获得了大量的世界知识以及处理长距离依赖关系的能力,这些能力随后被成功转移到解决诸如问答、语义相似性评估、蕴含关系判定和文本分类等判别式任务上,从而在我们研究的12个数据集中的9个上改进了最先进的性能。
利用无监督(预)训练来提高判别式任务的性能一直是机器学习研究的重要目标。我们的工作表明,实现显著的性能提升确实是可能的,并提供了关于哪些模型(Transformer)和数据集(具有长距离依赖关系的文本)最适合这种方法的线索。我们希望这将有助于推动自然语言理解和其他领域无监督学习的新研究,进一步加深我们对无监督学习如何以及何时有效的理解。
Ankie的评论:
1,GPT v1通过实验证明了transformer模型要比之前的LSTM(例如 RNN等)都要好。换句话说OpenAI 恰逢其时,他们尝试了各种LSTM模型。刚好transformer出现,openAI慧眼识珠,选中了这匹好马,大大提高了自然语言理解的性能。我们类比一下乔布斯放弃flash。每种技术都有他的生命周期,很幸运的是,OpenAI选中了transformer这项朝阳技术,并推动transformer发扬光大。
2,GPT v1引入了一个框架,通过生成式预训练和判别式微调,使用单个与任务无关的模型实现强大的自然语言理解。
3,GPT v1重新把无监督学习带回到人工智能的焦点之中。让无监督学习在人工智能领域重新发扬光大。