逻辑推理阅读理解任务及方法

2.数据集简介

2.1 LogiQA

LogiQA[5]是一个四选一的单项选择问答数据集,针对输入的问题、篇章和四个选项,模型需要根据问题和篇章找出唯一正确的选项作为答案。LogiQA的数据来自于中国的国家公务员考试题目,其旨在考察公务员候选人的批判性思维和解决问题的能力。原始数据经过筛选、过滤后得到8678条数据,这些数据被五名专业的英文使用者由中文翻译到英文,数据集的中文版本Chinese LogiQA也被同时发布。LogiQA的例子如图1所示,这些数据按照8:1:1的比例随机划分为训练集、开发集和测试集。
作者评估了基于规则的方法、深度学习方法以及基于预训练语言模型的方法在LogiQA上的表现,实验结果如表1所示,可以看到人类(研究生)在LogiQA上可以取得86%的平均准确率,这说明该数据集的难度对于人类受试者来说并不高,而另一方面,被测试的所有方法的表现均显著低于人类,即便是表现最好的RoBERTa模型也仅能取得35.31%的准确率,这说明目前的预训练语言模型的逻辑推理能力还相当弱。

2.2 ReClor

ReClor[6]与LogiQA一样,是一个四选一的单项选择问答数据集,其来自于美国的两个标准化研究生入学考试:研究生管理科入学考试(GMAT)和法学院入学考试(LSAT),经过筛选、过滤得到6138条考察逻辑推理能力的数据,这些数据被随机划分为4638,500,1000条来分别用作训练集、开发集和测试集。ReClor数据集的一个具体例子如图2所示,可以看到只有基于篇章、问题和选项进行逻辑推理和分析才能得到正确的答案。
正如上面介绍的那样,ReClor来自侧重考察逻辑推理的考试,由人类的专家构建,这意味着biases有可能被引入,这导致模型可能无需真正理解文本,仅仅利用这些biases就可以在任务上取得很好的表现。而将这些biased数据与unbiased数据区分开可以更加全面的评价模型在ReClor上的表现。为此,作者去除掉问题和篇章,仅仅将选项作为预训练语言模型的输入,如果模型仅仅依赖选项就可以成功预测出正确选项,那么这样的biased数据就被归为EASY-SET,其余数据被归为HARD-SET,这样,ReClor的测试集被分为了EASY-SET和HARD-SET两部分。
作者在ReClor的EASY-SET和HARD-SET上分别评估了预训练语言模型和人类的表现,实验结果如图3所示,实验结果显示:预训练语言模型在EASY-SET上可以取得很好的表现,但是在HARD-SET上表现很差,而人类则在两个集合上取得了相当的表现,这说明目前的模型虽然擅长利用数据集中存在的biases,但是还远远做不到真正的逻辑推理。

3.1 基于图的精调方法

3.1.1 DAGN

3.1.2 AdaLoGN

3.1.3 Loigformer

3.2 预训练方法

3.2.1 MERIt

3.2.2 LogiGAN

https://mp.weixin.qq.com/s/ZJOlkaIn2Gdohx_-b30jmg

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值