Understanding Dataset Design Choices for Multi-hop Reasoning

最新推荐文章于 2023-09-04 15:23:33 发布

记忆力退化的玲玲酱

最新推荐文章于 2023-09-04 15:23:33 发布

阅读量397

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Yunshang12345/article/details/109850807

版权

Understanding Dataset Design Choices for Multi-hop Reasoning (NAACL 2019) 阅读笔记

记录论文中几个有趣的实验。

1.单句包含答案实验

首先做了一个简单的实验，给模型输入一个句子以及问题，模型输出该句包含问题对应答案的概率。然后在这两个数据集上分别训练了这么一个模型，再测试，发现超过一半的样例都成功判断出了包含答案的句子。

实验结果表明：不进行多跳推理就可以定位答案。这可能是由于模型具有简单的词汇匹配功能。

【思考】：答案预测是以命名的实体为驱动的，从而浅层的匹配功能就能完成答案的预测。能否设计出不以实体为驱动的问题？或者设计出能够产生实体层面干扰的distractor sentences?

2.可以可以不看文章直接答

对于wikihop 数据集，只给模型问题以及候选答案集合，不给定文章，让模型预测答案。

实验结果：

给只问题就选择答案，准确率竟然达到了59.70！

3.Span-based vs. Multiple-choice

HotpotQA是一个span式的数据集，而Wikihop则是一个多选的数据集。作者把hotpotQA(distractor setting)中的不包含答案的其余9个文档中抽取出一个实体，这9个实体和答案组成候选答案集合，从而将HotpotQA改造成多选数据集。然后对于Wikihop数据集，作者也将其改造成了span式的数据集，具体的改造方法是：把所有文档连接起来，第一次出现答案的位置就是gold span。

实验结果：

做了实验之后发现，在HotpotQA和Wikihop-Span(基于答案抽取的Wikihop)上得分都比较低，而在HotpotQA-MC(多选择式的hotpotQA)和Wikihop上的结果都挺高的。

作者经过分析得到了以下结论：
（1）当训练集和测试集都是多选数据集的时候，模型（注意是论文中进行实验的模型）就不会多跳推理
（2）Span式的数据集更加具有挑战性，但仍然有一些问题不需要多跳推理也能回答
（3）给多选式数据集增加选项并不能从本质改变这一现象（如上图）
（4）Span式的训练数据更加健壮（powerful）

记忆力退化的玲玲酱

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。