HellaSwag: Can a Machine Really Finish Your Sentence阅读笔记

HellaSwag是一个新的数据集,旨在推动机器在常识推理任务上的进步。研究发现,尽管BERT在SWAG数据集上表现良好,但并未展现出真正的常识推理能力,主要是学习了数据集的特定分布偏差。通过对抗过滤技术,HellaSwag的创建旨在创建对现有模型更具挑战性的样本。实验表明,即使是强大的预训练模型,如BERT,在HellaSwag上的表现也远低于人类,表明在解决常识性自然语言推理任务上还有很长的路要走。
摘要由CSDN通过智能技术生成

2019-alc-HellaSwag_Can a Machine Really Finish Your Sentence

原文地址:https://arxiv.org/abs/1905.07830

swag提出了NLP新任务:commonsense nlp inference。实际上是nlu的一种特例。BERT解决了。于是提出个新数据集,难为BERT,就是HellaSwag。

HellaSwag使用AF(Adversarial Filtering,对抗过滤)技术(就是生成对抗网络的思想,生成器,判别器,此消彼长,使得生成的样本足以乱真),一种数据搜集范式,一系列判别器迭代地选择机器生成的错误回答的对抗集。

提出的方法使得benchmark可以和stoa以对抗的方式一同成长。

是否可以实时学到错误的回答,在后续题目中将其放大。

1 Introduction

BERT很快在SWAG数据集上接近人类表现。但BERT只是个rapid surface learner。BERT并没有表现出commonsense reasoning的能力,在SWAG上的表现是finetuning的结果,只是学到了数据集特定的分布偏差。当分布发生极小变化时,BERT的性能急剧下降,即便数据集的领域相同。

利用AF生成HellaSwag数据集。生成器采用GPT,判别器采用BERT,以及高质量的源文本(GPT的要求)。我们用WikiHow文章扩充SWAG原来的video-captioning领域,极大地增加了上下文的多样性和生成文本的长度。

我们发现,每个上下文包含三句话,每个生成句包含两句话是正好的方案,即便最先进的判别器也无法可靠地区分出生成句子与事实句子。

作为benchmark的数据集必须和stoa一起演进。每次迭代创建的数据集都剔除掉伪偏差(spurious biases,应该是与类别有关的偏差,而bias是在同分布数据集中采样形成的偏差)。只有这种迭代不可行了,即不存在伪偏差了,才能说模型解决了该任务。

2 Background

SWAG:常识自然语言推理的数据集。每个question包含一个视频字幕和四个接下来可能发生的ending choices,其中只有一个是对的——下一帧视频的字幕。

生成有意义的negatives极富挑战性。以往工作发现,当人类为NLI问题撰写endings时,会引入微小但对模型来说很强的类-条件偏差(类条件概率 P ( X ∣ ω i ) P(X|\omega_i) P(Xωi)是指给定不同类别 ω i \omega_i ωi的概率,类条件偏差应该是不同类别下的偏差),称为annotation artifact。

为此,Zellers等引入了Adversarial Filtering(AF)。核心思想是生成一个数据集 D \mathcal{D} D,对于任一划分 ( D t r a i n

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值