参考论文:Improving Language Understanding by Generative Pre-Training
这篇论文是基于文本分类的这篇论文上进行改进,这篇论文所提出的方法称之为GPT
前言
在之前的博客中讲过预训练的好处,并且预训练可以以多种方式参与到后续的下游任务中,这里就不再赘述。在这篇论文中,探索出了一种对自然语言理解任务的半监督方法,融合了无监督的预训练(pre-training)和有监督的微调(fine-tuning)过程。本文提出了一种通用表示,能够在范围广泛的任务中稍加修改、适应就能快速进行transfer.整个过程分成两个阶段。
阶段一:在无标签的海量数据中训练语言模型,学习神经网络模型的参数。
阶段二:应用阶段一训练完成模型参数用相关标签数据训练target task。
文本分类这篇论文采用了3层的单向LSTM,无attention,带有少量dropout 参数,而本文