逻辑推理阅读理解任务及方法

最新推荐文章于 2025-02-18 14:29:05 发布

zhurui_xiaozhuzaizai

最新推荐文章于 2025-02-18 14:29:05 发布

阅读量1.2k

点赞数

分类专栏：自然语言处理文章标签：人工智能深度学习

本文链接：https://blog.csdn.net/weixin_36378508/article/details/125505869

版权

自然语言处理专栏收录该内容

92 篇文章

订阅专栏

2.数据集简介

2.1 LogiQA

LogiQA[5]是一个四选一的单项选择问答数据集，针对输入的问题、篇章和四个选项，模型需要根据问题和篇章找出唯一正确的选项作为答案。LogiQA的数据来自于中国的国家公务员考试题目，其旨在考察公务员候选人的批判性思维和解决问题的能力。原始数据经过筛选、过滤后得到8678条数据，这些数据被五名专业的英文使用者由中文翻译到英文，数据集的中文版本Chinese LogiQA也被同时发布。LogiQA的例子如图1所示，这些数据按照8:1:1的比例随机划分为训练集、开发集和测试集。
作者评估了基于规则的方法、深度学习方法以及基于预训练语言模型的方法在LogiQA上的表现，实验结果如表1所示，可以看到人类（研究生）在LogiQA上可以取得86%的平均准确率，这说明该数据集的难度对于人类受试者来说并不高，而另一方面，被测试的所有方法的表现均显著低于人类，即便是表现最好的RoBERTa模型也仅能取得35.31%的准确率，这说明目前的预训练语言模型的逻辑推理能力还相当弱。

2.2 ReClor

ReClor[6]与LogiQA一样，是一个四选一的单项选择问答数据集，其来自于美国的两个标准化研究生入学考试：研究生管理科入学考试（GMAT）和法学院入学考试（LSAT），经过筛选、过滤得到6138条考察逻辑推理能力的数据，这些数据被随机划分为4638，500，1000条来分别用作训练集、开发集和测试集。ReClor数据集的一个具体例子如图2所示，可以看到只有基于篇章、问题和选项进行逻辑推理和分析才能得到正确的答案。
正如上面介绍的那样，ReClor来自侧重考察逻辑推理的考试，由人类的专家构建，这意味着biases有可能被引入，这导致模型可能无需真正理解文本，仅仅利用这些biases就可以在任务上取得很好的表现。而将这些biased数据与unbiased数据区分开可以更加全面的评价模型在ReClor上的表现。为此，作者去除掉问题和篇章，仅仅将选项作为预训练语言模型的输入，如果模型仅仅依赖选项就可以成功预测出正确选项，那么这样的biased数据就被归为EASY-SET，其余数据被归为HARD-SET，这样，ReClor的测试集被分为了EASY-SET和HARD-SET两部分。
作者在ReClor的EASY-SET和HARD-SET上分别评估了预训练语言模型和人类的表现，实验结果如图3所示，实验结果显示：预训练语言模型在EASY-SET上可以取得很好的表现，但是在HARD-SET上表现很差，而人类则在两个集合上取得了相当的表现，这说明目前的模型虽然擅长利用数据集中存在的biases，但是还远远做不到真正的逻辑推理。

3.1 基于图的精调方法

3.1.1 DAGN

3.1.2 AdaLoGN

3.1.3 Loigformer

3.2 预训练方法

3.2.1 MERIt

3.2.2 LogiGAN

https://mp.weixin.qq.com/s/ZJOlkaIn2Gdohx_-b30jmg