【论文泛读44】BoolQ:探索自然是/否问题的惊人难度

这篇论文介绍了BoolQ数据集,该数据集包含无提示、不受限制的是/否问题,揭示了这些问题在阅读理解上的复杂性和挑战性。研究表明,解决这些问题往往需要进行复杂的非事实推理。论文发现,从 MultiNLI 数据集上训练的 BERT 模型再在 BoolQ 上进行微调,能取得最佳效果,达到了80%的准确率。这表明预训练语言模型如BERT在解决此类任务时仍有改进空间,而从蕴含数据集转移学习是有益的。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

贴一下汇总贴:论文阅读记录

论文链接:《BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions》

github

一、摘要

在本文中,我们研究是自然发生的是/否问题—表示它们是在无提示且不受限制的情况下生成的。我们建立了此类问题的阅读理解数据集BoolQ,并表明它们出乎意料地具有挑战性。他们经常查询复杂的,非事实的信息,并且需要困难的类似蕴含的推理来解决。我们还探讨了一系列迁移学习基准的有效性。我们发现从包含数据传输比从释义或提取质量检查数据传输更有效,而且令人惊讶的是,即使从庞大的经过预训练的语言模型(例如BERT)开始,它仍然继续非常有益。我们最好的方法是在MultiNLI上训练BERT,然后在我们的火车上对其进行重新训练。达到80。

二、结论

我们引入了BoolQ,这是一个新的阅读理解数据集,包含自然出现的是/否问题。我们已经表明,这些问题具有挑战性,需要广泛的推理能力来解决。我们还研究了迁移学习在这项任务中的表现,并发现即使在语言模型预训练的基础上,也可以利用人群来源的蕴涵数据集来提高性能。未来的工作可能包括建立这一任务的文档级版本,这将增加其难度及其与最终用户应用程序的对应性。

yes/no questions from the BoolQ dataset
在这里插入图片描述
BoolQ数据集中需要的各种推理
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值