阅读理解中模型结构总概

目前阅读理解领域出现了很多具体的模型,但是如果对这些模型进行技术思路梳理的话,会发现本质上大多数模型都是论文“Teaching Machines to Learn and Comprehend”提出的两个基础模型“Attentive Reader”和“Impatient Reader”的变体。
将其归纳为“一维匹配模型”、“二维匹配模型”、‘推力模型’等三类模型。其中一维匹配模型和二维匹配模型是基础模型,推理模型是在基础模型上进一步引入了推理机制。


一、
引用块内容

一维匹配模型本质上是“Attentive Reader”的变体。下面我们介绍一维匹配模型的具体工作流程:
1,对于doc采用上个博客所写的方法一来进行编码,也就是用双向RNN来对doc进行建模
2,对于query采用上个博客中的方法三来编码,也就是使用双向RNN的头尾部节点隐层状态作为query的语义表示
3,通过某种匹配函数F(),来计算doc中每个单词Di(编码中单词Di包括单词自身的语义以及其上下文的语义)和query整体语义的匹配程度。从含义上可以理解为F()是计算某个单词Di是query的答案的可能性的映射函数。
4,对每个单词的匹配函数值通过SoftMax函数进行归一化,这整个过程可以理解为Attention操作,意思是凸显出哪个单词是query的答案的可能性
5,最后,因为一篇文章中,某个单词可能在多处出现,而在不同位置出现的同一个单词度会有相应的Attention计算结果,这代表了单词在其具体的不同的上下文中是答案的概率,那么将相同单词的Attention计算出的概率值进行累加,即可作为该单词是query的答案的概率。
6,选择可能性最大的那个单词作为query的答案输出。

符合一维匹配模型的主流模型包括
1,Attention Sum Reader(AS Reader) 参考文献:《Text understanding with the attention sum reader network》
2,Stanford Attentive Reader(Stanford AR)参考文献:《A thorough examination of the cnn /daily mail reading comprehension task》
3,Gated-Attention Reader(GA Reader),参考文献:《Gated-attention readers for text comprehension 》
4,Attentive Reader,参考文献:《Teaching machines to read and comprehend 》
5,AMRNN,参考文献:《Towards Machine Comprehension of Spoken Content:Initial TOEFL Listening Comprehension Test by Machine》


二、
这里写图片描述
故名思义,二维匹配模型是相对于一维匹配模型而言的,他最初的思想是体现在“Impatient Reader”的思路中。
如上图是二维匹配模型的整体流程示意图,其整体结构和一维匹配模型是类似的,最主要的区别体现在如何计算doc和query的匹配这个层面上。
与一维匹配模型的区别在于:二维匹配模型的query表征方式采用“query表示方法一”,就是说不是将问题的语义表达为一个整体,而是问题中的每个单词都单独采用Word Embedding向量来表示。
假设doc的长度为||D||,query的长度为||Q||,那么在计算query和doc的匹配步骤中,就形成了||D||*||Q||的二维矩阵,就是说doc中的任意词Di和query中的任意词Qj都应用匹配函数来形成矩阵的位置的值。
当二维矩阵的值根据匹配函数填充完毕后,就可以考虑进行Attention计算。因为是二维矩阵,所以可以有很多种不同的Attention计算机制。
计算方式一:按照二维矩阵的行来进行Attention计算,因为矩阵的一行代表doc中的某个单词Di相对query中每个单词Qj的匹配程度向量。
这里写图片描述
计算方式二:同样的可以按照矩阵的列来进行Attention计算,因为矩阵的一列代表query中某个单词Qi相对doc序列中每个单词Dj的匹配程度,按照列计算Attention表达的是query单词Qi和doc中的各个单词的语义相似程度。
这里写图片描述

符合二维匹配模型的主流模型有:
1,Consensus Attention(CA Reader),参考文献《Consensus attention-based neural networks for chinese reading comprehension》
2,Attention-over-Attention(AOA Reader),参考文献《Attention-over-Attention Neural Networks for Reading Comprehension》
Match-LSTM,参考文献《End-to-end memory networks》
总结:由于二维匹配模型将问题由整体表达语义的一维结构转换为按照问题中每个单词及其上下文的语义的二维结构,明确引入了更多细节信息,所以整体模型效果要稍优于一维匹配模型。


三、推理过程
现有的工作中,记忆网络(Memory Networks 参考文献《End-to-end memory networks》),GA Reader、Iterative Alternating神经网络(IA Reader,参考文献《Iterative alternating neural attention for machine reading》)以及AMRNN都直接在网络结构中体现了这种推理策略。
一般而言,机器阅读理解过程网络结构中的深层网络都是为了进行文本推理而设计的,就是说,通过加深网络层数来模拟不断增加的推理步骤。
3.1 记忆网络:
记忆网络
记忆网络是最早提出推理过程的模型,它对后续其他模型有重要的影响,对于记忆网络模型来说,其第一层网络的推理过程(Layer-Wise RNN模式),其具体工作流程为:
1,首先根据原始query的Word Embedding表达方式以及doc的原始表达,通过f()函数计算文档单词的Attention概率(计算方式参考二维匹配模型)
2,然后g()函数利用doc原始表达和Attention信息,计算doc的新的表达方式,这里一般g()函数是加权求和函数。
3,然后t()函数则根据doc新的表达方式以及原始query表达方式,推理出query和doc的最终的新表达方式。这里的t()函数实际上就是通过两者Word Embedding的逐位相加实现的。
4,t()函数的输出更新下一层网络问题的表达方式,这样就通过隐式的内部更新doc和显示的更新query表达方式实现了一次推理过程。
5,后续每层网路推理过程就是重复反复这个过程,通过多层网络,就实现了不断通过推理更改文档和问题的表达方式。
后续还有AMRNN和GA Reader的推理过程,这里就不再赘述。详情看参考地址
总结:虽然有好几种推理模型,但是其中也有很多种共性:一般常见的推理策略往往是通过多轮迭代,不断更新注意力模型的注意焦点来更新query和doc的Embedding表达方式,即通过注意力的不断转换来实现所谓的“推理过程”。

参考地址:http://dataunion.org/25885.html

展开阅读全文

没有更多推荐了,返回首页