HotpotQA数据集

lzk_nus

已于 2022-02-16 21:21:40 修改

阅读量4.8k

点赞数 4

分类专栏： NLP Deep Learning 文章标签：深度学习自然语言处理

于 2022-02-16 21:18:07 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42791848/article/details/122972100

版权

Deep Learning 同时被 2 个专栏收录

43 篇文章

订阅专栏

37 篇文章

订阅专栏

HOTPOTQA: A Dataset for Diverse, Explainable Multi-hop Question Answering

Dataset

HotpotQA是2018年新提出的一个多跳推理问答数据集，本文主要来看数据集的格式。

在这里插入图片描述

从图上可以看出数据集还是比较大的，训练集分为了三个难度：easy、medium、hard，其中medium占主要部分。

整个数据集其实还可以分成两类：distractor和fullwiki。distractor的数据包含以下的几个部分：

问题
问题的类型
十段文章，两段与问题答案相关的，八段不相关的，因此叫做distractor
supporting facts，与答案相关的段落中的与答案直接相关的句子
答案

下图是一个例子，绿色的部分就是数据集里提供的supporting facts。

在这里插入图片描述

下图是问题的所有类型

在这里插入图片描述

而fullwiki的数据集属于是open-domain的开放域问答任务。

Baseline Model

下图是论文中提出的baseline模型，可以看得出与之前的MRC模型有一些相似之处，不过这里我们需要做多任务学习：在预测答案span的同时判断当前句子是否为supporting fact。

在这里插入图片描述

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。