文章目录
论文贡献: 提出了一种双向的多角度匹配模型(bilateral multi-perspective matching).
Method
Model Overview
![](https://i-blog.csdnimg.cn/blog_migrate/d2d45ab64f36014a5b48cc85da8f2f3a.png)
1. Word Representation Layer
The goal of this layer is to represent each word in P and Q with a d-dimensional vector.
输入向量由两部分组成:一部分是固定的词向量(Glove或者word2vec),另一部分是字符向量构成的词向量.字符向量是随机初始化然后输入到LSTM学习得到的.
2. Context Representation Layer
这一层目的是将上下文信息融合到 P 和 Q 每个 time-step 的表示中,这里利用 Bi-LSTM 去得到 P 和 Q 每个time-step 的上下文向量。
![](https://i-blog.csdnimg.cn/blog_migrate/0fd7c8013f4b09c05a44829edb64c4d7.png)
3. Matching Layer
模型的关键层.
比较句子 P 的每个上下文向量(time-step)和句子 Q 的所有上下文向量(time-step),比较句子 Q 的每个上下文向量(time-step)和句子 P 的所有上下文向量(time-step)。为了比较一个句子中某个上下文向量(time-step)和另外一个句子的所有上下文向量(time-step),这里设计了一种 multi-perspective 的匹配方法 ⊗ \otimes ⊗,用于获取两个句子细粒度的联系信息。
这层的输出是两个序列,序列中每一个向量是一个句子的某个 time-step 相对于另一个句子所有的 time-step 的匹配向量。
4. Aggregation Layer
这层主要功能是聚合两个匹配向量序列为一个固定长度的匹配向量。对两个匹配序列分别使用 Bi-LSTM,然后连接 Bi-LSTM 最后一个 time-step 的向量(4个)得到最后的匹配向量。
5. Prediction Layer
这层目的是计算概率 P r ( y ∣ P , Q ) Pr(y|P, Q) Pr(y∣P,Q).前一次的输出连接两层前馈神经网络,之后再加上softmax输出结果.
Multi-prespective Matching Operation
重点介绍下论文提出的多角度匹配算法.
论文中提到多角度匹配运算 ⊗ \otimes ⊗有以下两步:
1.定义多角度余弦匹配方程 f m f_m fm