2019-alc-HellaSwag_Can a Machine Really Finish Your Sentence
原文地址:https://arxiv.org/abs/1905.07830
swag提出了NLP新任务:commonsense nlp inference。实际上是nlu的一种特例。BERT解决了。于是提出个新数据集,难为BERT,就是HellaSwag。
HellaSwag使用AF(Adversarial Filtering,对抗过滤)技术(就是生成对抗网络的思想,生成器,判别器,此消彼长,使得生成的样本足以乱真),一种数据搜集范式,一系列判别器迭代地选择机器生成的错误回答的对抗集。
提出的方法使得benchmark可以和stoa以对抗的方式一同成长。
是否可以实时学到错误的回答,在后续题目中将其放大。
1 Introduction
BERT很快在SWAG数据集上接近人类表现。但BERT只是个rapid surface learner。BERT并没有表现出commonsense reasoning的能力,在SWAG上的表现是finetuning的结果,只是学到了数据集特定的分布偏差。当分布发生极小变化时,BERT的性能急剧下降,即便数据集的领域相同。
利用AF生成HellaSwag数据集。生成器采用GPT,判别器采用BERT,以及高质量的源文本(GPT的要求)。我们用WikiHow文章扩充SWAG原来的video-captioning领域,极大地增加了上下文的多样性和生成文本的长度。
我们发现,每个上下文包含三句话,每个生成句包含两句话是正好的方案,即便最先进的判别器也无法可靠地区分出生成句子与事实句子。
作为benchmark的数据集必须和stoa一起演进。每次迭代创建的数据集都剔除掉伪偏差(spurious biases,应该是与类别有关的偏差,而bias是在同分布数据集中采样形成的偏差)。只有这种迭代不可行了,即不存在伪偏差了,才能说模型解决了该任务。
2 Background
SWAG:常识自然语言推理的数据集。每个question包含一个视频字幕和四个接下来可能发生的ending choices,其中只有一个是对的——下一帧视频的字幕。
生成有意义的negatives极富挑战性。以往工作发现,当人类为NLI问题撰写endings时,会引入微小但对模型来说很强的类-条件偏差(类条件概率 P ( X ∣ ω i ) P(X|\omega_i) P(X∣ωi)是指给定不同类别 ω i \omega_i ωi的概率,类条件偏差应该是不同类别下的偏差),称为annotation artifact。
为此,Zellers等引入了Adversarial Filtering(AF)。核心思想是生成一个数据集 D \mathcal{D} D,对于任一划分 ( D t r a i n