引言
工作的意义:
- 由于标注数据的缺少,能够直接从未标注数据中提取语言学信息的模型十分重要
- 实验表明,在大量的有监督任务中,引入无监督信息能够带来性能的提升(word embedding)
比word-level更高级别的信息不容易被提取:
- 优化函数得不到统一,训练任务各异
- 大多都是task-specific,且使用了复杂的学习机制和联合学习目标,所以没有很好的迁移能力
本文的贡献:
- 提出了一种半监督方法,包括了无监督的pretraining和有监督的finetuning
- 实验了不同的下游任务,和zero-shot的表现,证明效果好
相关工作
半监督学习
word embeddings trained on unlabeled corpora
phrase-level
sentence-level
无监督预训练
Unsupervised pre-training is a special case of semi-supervised learning where the goal is to find a good initialization point instead of modifying the supervised learning objective.(其实理解不了其中的差别,word embedding带来的不也是一个更好的初始化吗?)
先前的工作
- 使用LSTM模型,具有长距离依赖问题
- 使用预训练模型得到的隐式向量作为联合的特征,同时又定义了深层的task-specific architecture,参数量巨大
本文的特点
- 使用transformer
- 基本不需要增加task-specific parameters
联合训练目标
增加联合的无监督训练目标是半监督学习的替代品(依然理解不了)
模型
无监督的预训练
个人理解(不是很懂):对于第i个位置,把前k个单词组成的序列输入到transformer,然后得到预测向量(词表大小),表示第i个位置的单词是哪一个
有监督的微调
每一个训练实例由 1. 单词序列 2. 标签 组成,把单词序列输入到transformer中,取出最后一个单词的隐藏层向量作为序列的向量表示,然后经过一个标签层和softmax来得到预测的标签概率分布,计算loss
在微调过程中,把LM objective作为联合的训练目标,能够:1. 提高见度模型的泛化能力 2. 加快收敛
不同任务的输入
- Text classification: 单个句子
- natural language inference(textual entailment) : [p;delim;h]
- similarity:[A;delim;B] & [B;delim;A],分别得到两个隐藏层,然后做element-wise addition
- QA & Commonsense Reasoning:有三个需要输入的:
- document z
- question q
- 许多可能的answers(a1,a2,a3…)
输入1: [z;q;delim;a1]
输入2: [z;q;delim;a2]
每一个输出一个分数,最后做softmax,选择分数最大的那一个
实验
略
分析
zero-shot:
作者的思路:生成式预训练模型(GPT)为什么有效?——预训练好的模型能够提升模型在下游任务上的语言建模能力,而transformer更加结构化的注意力记忆能够帮助模型更好的迁移
实验结论:LSTM在zero-shot中有更大的方差,而transformer能够带来更有效的归纳偏置(inductive bias)