HotpotQA数据集

HOTPOTQA: A Dataset for Diverse, Explainable Multi-hop Question Answering

Dataset

HotpotQA是2018年新提出的一个多跳推理问答数据集,本文主要来看数据集的格式。

在这里插入图片描述

从图上可以看出数据集还是比较大的,训练集分为了三个难度:easy、medium、hard,其中medium占主要部分。

整个数据集其实还可以分成两类:distractor和fullwiki。distractor的数据包含以下的几个部分:

  1. 问题
  2. 问题的类型
  3. 十段文章,两段与问题答案相关的,八段不相关的,因此叫做distractor
  4. supporting facts,与答案相关的段落中的与答案直接相关的句子
  5. 答案

下图是一个例子,绿色的部分就是数据集里提供的supporting facts。

在这里插入图片描述

下图是问题的所有类型

在这里插入图片描述

而fullwiki的数据集属于是open-domain的开放域问答任务。

Baseline Model

下图是论文中提出的baseline模型,可以看得出与之前的MRC模型有一些相似之处,不过这里我们需要做多任务学习:在预测答案span的同时判断当前句子是否为supporting fact。

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值