Understanding Dataset Design Choices for Multi-hop Reasoning

Understanding Dataset Design Choices for Multi-hop Reasoning (NAACL 2019) 阅读笔记

记录论文中几个有趣的实验。

1.单句包含答案实验

首先做了一个简单的实验,给模型输入一个句子以及问题,模型输出该句包含问题对应答案的概率。然后在这两个数据集上分别训练了这么一个模型,再测试,发现超过一半的样例都成功判断出了包含答案的句子。

实验结果表明:不进行多跳推理就可以定位答案。这可能是由于模型具有简单的词汇匹配功能。

【思考】:答案预测是以命名的实体为驱动的,从而浅层的匹配功能就能完成答案的预测。能否设计出不以实体为驱动的问题?或者设计出能够产生实体层面干扰的distractor sentences?

2.可以可以不看文章直接答

对于wikihop 数据集,只给模型问题以及候选答案集合,不给定文章,让模型预测答案。

实验结果:

给只问题就选择答案,准确率竟然达到了59.70!

3.Span-based vs. Multiple-choice

HotpotQA是一个span式的数据集,而Wikihop则是一个多选的数据集。作者把hotpotQA(distractor setting)中的不包含答案的其余9个文档中抽取出一个实体,这9个实体和答案组成候选答案集合,从而将HotpotQA改造成多选数据集。然后对于Wikihop数据集,作者也将其改造成了span式的数据集,具体的改造方法是:把所有文档连接起来,第一次出现答案的位置就是gold span。

实验结果:

做了实验之后发现,在HotpotQAWikihop-Span(基于答案抽取的Wikihop)上得分都比较低,而在HotpotQA-MC(多选择式的hotpotQA)Wikihop上的结果都挺高的。

作者经过分析得到了以下结论:
(1)当训练集和测试集都是多选数据集的时候,模型(注意是论文中进行实验的模型)就不会多跳推理
(2)Span式的数据集更加 具有挑战性,但仍然有一些问题不需要多跳推理也能回答
(3)给多选式数据集增加选项并不能从本质改变这一现象 (如上图)
(4)Span式的训练数据更加健壮(powerful)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值