HellaSwag: Can a Machine Really Finish Your Sentence阅读笔记

最新推荐文章于 2024-11-26 17:30:57 发布

boywaiter

最新推荐文章于 2024-11-26 17:30:57 发布

阅读量3.3k

点赞数 4

分类专栏： NLP 文章标签： NLI

本文链接：https://blog.csdn.net/boywaiter/article/details/102634563

版权

HellaSwag是一个新的数据集，旨在推动机器在常识推理任务上的进步。研究发现，尽管BERT在SWAG数据集上表现良好，但并未展现出真正的常识推理能力，主要是学习了数据集的特定分布偏差。通过对抗过滤技术，HellaSwag的创建旨在创建对现有模型更具挑战性的样本。实验表明，即使是强大的预训练模型，如BERT，在HellaSwag上的表现也远低于人类，表明在解决常识性自然语言推理任务上还有很长的路要走。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

2019-alc-HellaSwag_Can a Machine Really Finish Your Sentence

原文地址：https://arxiv.org/abs/1905.07830

swag提出了NLP新任务：commonsense nlp inference。实际上是nlu的一种特例。BERT解决了。于是提出个新数据集，难为BERT，就是HellaSwag。

HellaSwag使用AF（Adversarial Filtering，对抗过滤）技术（就是生成对抗网络的思想，生成器，判别器，此消彼长，使得生成的样本足以乱真），一种数据搜集范式，一系列判别器迭代地选择机器生成的错误回答的对抗集。

提出的方法使得benchmark可以和stoa以对抗的方式一同成长。

是否可以实时学到错误的回答，在后续题目中将其放大。

1 Introduction

BERT很快在SWAG数据集上接近人类表现。但BERT只是个rapid surface learner。BERT并没有表现出commonsense reasoning的能力，在SWAG上的表现是finetuning的结果，只是学到了数据集特定的分布偏差。当分布发生极小变化时，BERT的性能急剧下降，即便数据集的领域相同。

利用AF生成HellaSwag数据集。生成器采用GPT，判别器采用BERT，以及高质量的源文本（GPT的要求）。我们用WikiHow文章扩充SWAG原来的video-captioning领域，极大地增加了上下文的多样性和生成文本的长度。

我们发现，每个上下文包含三句话，每个生成句包含两句话是正好的方案，即便最先进的判别器也无法可靠地区分出生成句子与事实句子。

作为benchmark的数据集必须和stoa一起演进。每次迭代创建的数据集都剔除掉伪偏差（spurious biases，应该是与类别有关的偏差，而bias是在同分布数据集中采样形成的偏差）。只有这种迭代不可行了，即不存在伪偏差了，才能说模型解决了该任务。

2 Background

SWAG：常识自然语言推理的数据集。每个question包含一个视频字幕和四个接下来可能发生的ending choices，其中只有一个是对的——下一帧视频的字幕。

生成有意义的negatives极富挑战性。以往工作发现，当人类为NLI问题撰写endings时，会引入微小但对模型来说很强的类-条件偏差（类条件概率 $P(X|\omega_i)$ 是指给定不同类别 $\omega_i$ 的概率，类条件偏差应该是不同类别下的偏差），称为annotation artifact。