SIGIR 2019 | Human Behavior Inspired Machines Reading Comprehension

最新推荐文章于 2021-12-23 15:35:32 发布

a609640147

最新推荐文章于 2021-12-23 15:35:32 发布

阅读量458

点赞数

文章标签：人工智能论文

本文链接：https://blog.csdn.net/a609640147/article/details/91457969

版权

深度神经网络模型在一些简化过的机器阅读理解任务（例如: SQuAD）已经达到甚至超过了人的水平。然而，在实际的应用场景或者接近实际的任务（例如：MS MARCO和DuReader）中，和人的表现还有一大段的距离。本论文通过追踪32个试验者在完成60项阅读理解任务时，眼睛表现出来的行为模式和答案所在的位置来提出了一个两阶段阅读行为模型。第一个阶段为搜集可能的候选答案，第二个阶段为通过对比和验证生成最终的答案。本论文同时也指出了人的注意力的分布是同时被问题相关的和问题无关的因子所影响，通过模拟这些人的注意力信号可以显著地提升模型MRC任务的性能。

论文地址:
http://www.thuir.cn/group/~mzhang/publications/SIGIR2019Zheng.pdf

引言

阅读时获取知识和信息的一种基本途径，在这个过程中，人同时处理视觉信息和感知信息。在一个阅读理解任务中，人怀着明确的目的去阅读，例如找到最符合问题的答案，而这个目的会影响阅读行为。因此，在这种场景下面，现有的阅读模型或者在其他上下文条件下的阅读模型是不合适。而人在有目的的阅读场景下的阅读行为是还没有被深入研究过的，所以作者提出了三个研究问题：
（1）在阅读理解任务中，人是怎么阅读和寻找答案的。作者指出可以通过追踪眼睛去理解人的认知活动。主要有两种模式，分别为眼定和眼动。眼定可以较好表明人的注意力分布。
（2）在阅读理解任务中，什么因素影响了人的注意力分布。作者指出了影响影响人的注意力的可能包含了但不限于以下几个因素：位置、词频率、上下文的可预测特性和词性
（3）从人类的行为模式学习到的特征能不能提高MRC任务中的表现。通过将这些特征加入到MRC模型中即可以验证。

USER STUDY

作者招募了32位参与者去完成阅读理解任务。全部的参与者都有高等学历，能完成要求的任务。获取这些参与者在完成这些任务中眼定的时间去获得参与者在这些DuReader中文章的注意力分布。用户研究（USER STUDY）的流程和系统交互如图1所示：
图1.数据收集流程
收集的数据经过了相关性统计分析，保证了是可靠的。

阅读行为模型

针对引言中提出的研究问题（1），作者通过对用户研究中收集到的数据进行深入的分析，提出了一个两阶段的学习行为模型。第一阶段为答案寻找阶段，作者将文章按照长度分割为四个不同的片段，通过分析参与者的在四个不同片段的眼定时间（如图2所示）得出了若干个结论。在该阶段，用户一般有几种比较明显的模式，用户阅读文章一般会从头部到尾部，尽管在中途已经获取了部分的答案片段，依然会阅读到尾部。而且，越读到后面，用户会更多跳过一些无关的句子和更多往上再阅读，如图3所示。
图3.跳转行为和眼定行为在四个阶段的比例
第二阶段为答案验证阶段，在这个阶段，用户阅读最后的片段的行为模式和之前三个行为模式是不太一样的。在有答案的文章中，用户会产生更多跳过和往上阅读行为去再次阅读候选答案，然后产生最后的答案。在没有答案的文章中，用户会再次阅读整个文章。两阶段的阅读行为模型如图4所示。
图4.两阶段阅读行为模型

阅读偏好

为了解决在引言中提出的第二个研究问题，作者研究了四种可能影响读者行为的因素，分别为答案、位置、词法分类和匹配信号。在有答案的文章里面，相比非答案里面的内容，用户会更加关注答案里面的词。通过对有答案的文章的五个不同水平的垂直位置通过分析表明人的注意力受垂直位置和答案的位置影响。值得注意的是有答案文章的末尾，位置也是影响了注意力。词法特征包含了词的频率和词性，低频率的词相对高频率的词能获得更高的关注度；相对于其他的词性的词，用户会更加关注词性为名词的词。同时，在阅读理解任务里面，问题和文章存在同样的词的信息也可以传入到阅读理解模型里面去提高性能。最后，对这五种因子使用了方差分析（ANOVA），得到了结果如图5所示。
图5. 五个因素与人注意力分布通过ANOVA分析后的结果
从图5可以看出，答案（Answer）和词频（IDF）、位置（Position）与注意力分布相关性比较高。从而回答了引言中第二个研究问题。

答案预测

为了解决引言中提出的第三个研究问题，将人的注意力引入到阅个因素作为去进行注意力预测，这因素分别为：位置、语义特征（TF-IDF和词性等）、匹配度、鼠标和上下文。需要两个实验去证明，第一个实验是注意力预测，第二个实验是答案句子检索。
在注意力预测实验里面，注意力的预测是在句子级别的，通过句子级别上面的眼定时间，可以获得对应的注意力数值，然后分别尝试使用GBRT和RNN进行训练和预测。最终使用PCC（Pearson’s Correlation Coefficient）去衡量预测的效果，从图6可以看出，位置（Position）是最有效的。
图6. 注意力模型的5-fold性能均值
在图6中，我们证明了这这些特征在预测人的注意力上面的有效性。
在答案句子检索实验里面，使用了四种特征：学习排序（learning to rank）、匹配度、上下文和注意力。对于学习排序这个特征，使用了TF，IDF和TF-IDF的均值、BM25等。对于注意力，可以先使用在用户研究里面得到的真实注意力数据进行预测，然后再使用通过模型预测出来的注意力来进行预测，两者进行对比。
图7. 答案句子检索性能
从图7，我们可以知道加入了预测的注意力的模型性能要优于没有注意力的模型；加入真实注意力的模型性能要优于加入预测注意力模型的模型。从而解决了引言中的第三个研究问题，从人的行为特征中获取得到的能提高MRC任务的性能。

结论

该论文作者提出了两阶段阅读学习行为模型，这两阶段分别为寻找和验证候选答案。同时，通过详尽的分析表明，人的注意力分布是和位置有强相关的，也受其他的因素的影响。最后证明了人的注意力对阅读理解模型的性能提升是有帮助。
通读全文，其实可以发现本文研究内容较为简单，但是分析得比较详细。所以，不怕idea简单，要做好工作，一样受审稿人的青睐。

扫码识别关注，获取更多新鲜论文解读

a609640147

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
SIGIR 2019 | Human Behavior Inspired Machines Reading Comprehension

深度神经网络模型在一些简化过的机器阅读理解任务（例如: SQuAD）已经达到甚至超过了人的水平。然而，在实际的应用场景或者接近实际的任务（例如：MS MARCO和DuReader）中，和人的表现还有一大段的距离。本论文通过追踪32个试验者在完成60项阅读理解任务时，眼睛表现出来的行为模式和答案所在的位置来提出了一个两阶段阅读行为模型。第一个阶段为搜集可能的候选答案，第二个阶段为通过对比和验证生成最...
复制链接

扫一扫