【论文阅读】HOTPOTQA A Dataset for Diverse, Explainable Multi-hop Question Answering

HOTPOTQA是一个113k条目的多跳问答数据集,强调多样性与可解释性。它需要模型通过多个文档进行推理并提供证据。数据集分为single-hop和full wiki两种设置,后者更具挑战性。模型结构利用selfattention层预测支持事实,评估指标包括精确匹配(EM)和F1分数。研究发现,模型在比较问题上的性能有待提升。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

HOTPOTQA A Dataset for Diverse, Explainable Multi-hop Question Answering

论文:https://arxiv.org/pdf/1809.09600.pdf

一个多样的,可解释的多跳问答数据集。

任务

现有的问答数据集不能训练QA系统进行复杂的推理并提供答案的解释。提出hotpot数据集,提供支持事实使模型能够改进性能并做出可解释的预测。

HOTPOTQA介绍

HOTPOTQA是一个新的数据集,拥有113k个基于Wikipedia的问答对,具有以下四个关键特性:

  • 这些问题需要在多个支持文档上找到答案并进行推理。
  • 问题是多样的,不局限于任何预先存在的知识库或知识模式。
  • 提供推理所需的句子级支持事实,允许QA系统在强监督下推理并解释预测。
  • 提出了一种新的factoid comparison questions来测试QA系统提取相关事实和进行必要比较的能力。

数据集

数据集划分

single-hop数据集:The train-easy set contains 18,089 mostly single-hop examples.

将hard examples随机划分为4个子集:

  • train-hard, dev, test-distractor, test-fullwiki
image-20210131161127920

two benchmark settings

  • distractor

    8 paragraphs from Wikipedia + 2 gold paragraphs

  • full wiki

    要求模型回答所有Wikipedia文章的第一段给出的问题。

两种设置使用不同数据集的原因:distractor设置中的模型可以使用gold paragraphs,但full wiki设置中不可以使用gold paragraphs。

Question Types

image-20210131164223663

Answer Types

image-20210131164623642

  • 68%的回答实体相关。

模型结构

image-20210131171031628

  • 对于每个句子,在第一个和最后一个位置连接selfattention layer的输出,并使用binary linear classifier来预测当前句子成为支持事实的概率。
  • 将此分类器的二进制交叉熵损失最小化。 在多任务学习环境中,该目标与正常问答目标共同得到优化,并且它们共享相同的low-level representations。
  • 使用该分类器,还可以在支持事实预测的任务上评估模型以评估其可解释性 。

性能水平

评估指标

  • exact match (EM) and F1

  • 计算F1

P ( j o i n t ) = P ( a n s ) P ( s u p )

好的,以下是使用PyTorch实现 "Learning a Deep ConvNet for Multi-label Classification with Partial Labels" 论文的示例代码。 ```python import torch import torch.nn as nn import torch.optim as optim from torch.utils.data import DataLoader from torchvision.transforms import transforms from sklearn.metrics import f1_score from dataset import CustomDataset from model import ConvNet # 设置随机数种子,保证结果可重复 torch.manual_seed(2022) # 定义超参数 epochs = 50 batch_size = 128 learning_rate = 0.001 weight_decay = 0.0001 num_classes = 20 num_labels = 3 # 定义数据预处理 transform = transforms.Compose([ transforms.ToTensor(), transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5)) ]) # 加载数据集 train_dataset = CustomDataset(root='./data', split='train', transform=transform) train_loader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True, num_workers=2) test_dataset = CustomDataset(root='./data', split='test', transform=transform) test_loader = DataLoader(test_dataset, batch_size=batch_size, shuffle=False, num_workers=2) # 定义模型 model = ConvNet(num_classes=num_classes, num_labels=num_labels) # 定义损失函数和优化器 criterion = nn.BCEWithLogitsLoss() optimizer = optim.Adam(model.parameters(), lr=learning_rate, weight_decay=weight_decay) # 训练模型 for epoch in range(epochs): # 训练阶段 model.train() running_loss = 0.0 for i, data in enumerate(train_loader): inputs, labels = data optimizer.zero_grad() outputs = model(inputs) loss = criterion(outputs, labels) loss.backward() optimizer.step() running_loss += loss.item() train_loss = running_loss / len(train_loader) # 测试阶段 model.eval() y_true, y_pred = [], [] with torch.no_grad(): for data in test_loader: inputs, labels = data outputs = model(inputs) predicted_labels = torch.round(torch.sigmoid(outputs)) y_true.extend(labels.cpu().numpy()) y_pred.extend(predicted_labels.cpu().numpy()) f1 = f1_score(y_true, y_pred, average='macro') print('[Epoch %d] Train Loss: %.3f, Test F1: %.3f' % (epoch + 1, train_loss, f1)) ``` `CustomDataset` 和 `ConvNet` 分别是数据集类和模型类,需要根据您的具体情况进行实现。在训练阶段,使用 `nn.BCEWithLogitsLoss()` 作为损失函数进行优化。在测试阶段,使用 `sklearn.metrics.f1_score()` 计算 F1 值作为模型评估指标。 希望以上示例代码对您有所帮助!
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

没有胡子的猫

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值