Bilateral Multi-Perspective Matching for Natural Language Sentences阅读笔记及复现

最新推荐文章于 2022-10-23 21:39:21 发布

Leokb24

最新推荐文章于 2022-10-23 21:39:21 发布

阅读量1.3k

点赞数

分类专栏：论文阅读文本匹配论文阅读文章标签： BiMPM 论文阅读复现

本文链接：https://blog.csdn.net/leo_95/article/details/89199365

版权

本文详细介绍了Bilateral Multi-Perspective Matching（BiMPM）模型，包括词向量层、上下文表示层、匹配层、聚合层和预测层。匹配层的关键在于多角度匹配操作，通过多种策略捕捉句子间的细致联系。实验部分展示了模型在Paraphrase Identification、Natural Language Inference和Answer Sentence Selection等任务上的应用和效果，并提供了复现代码链接。

摘要由CSDN通过智能技术生成

论文贡献: 提出了一种双向的多角度匹配模型（bilateral multi-perspective matching).

Method

Model Overview

1. Word Representation Layer

The goal of this layer is to represent each word in P and Q with a d-dimensional vector.
输入向量由两部分组成:一部分是固定的词向量(Glove或者word2vec)，另一部分是字符向量构成的词向量.字符向量是随机初始化然后输入到LSTM学习得到的.

2. Context Representation Layer

这一层目的是将上下文信息融合到 P 和 Q 每个 time-step 的表示中，这里利用 Bi-LSTM 去得到 P 和 Q 每个time-step 的上下文向量。

3. Matching Layer

模型的关键层.
比较句子 P 的每个上下文向量（time-step）和句子 Q 的所有上下文向量（time-step），比较句子 Q 的每个上下文向量（time-step）和句子 P 的所有上下文向量（time-step）。为了比较一个句子中某个上下文向量（time-step）和另外一个句子的所有上下文向量（time-step），这里设计了一种 multi-perspective 的匹配方法 $\otimes$ ，用于获取两个句子细粒度的联系信息。

这层的输出是两个序列，序列中每一个向量是一个句子的某个 time-step 相对于另一个句子所有的 time-step 的匹配向量。

4. Aggregation Layer

这层主要功能是聚合两个匹配向量序列为一个固定长度的匹配向量。对两个匹配序列分别使用 Bi-LSTM，然后连接 Bi-LSTM 最后一个 time-step 的向量（4个）得到最后的匹配向量。

5. Prediction Layer

这层目的是计算概率 $P r (y ∣ P, Q)$ .前一次的输出连接两层前馈神经网络,之后再加上softmax输出结果.

Multi-prespective Matching Operation

重点介绍下论文提出的多角度匹配算法.
论文中提到多角度匹配运算 $\otimes$ 有以下两步:

1.定义多角度余弦匹配方程 $f_m$

最低0.47元/天解锁文章

Leokb24

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Bilateral Multi-Perspective Matching for Natural Language Sentences阅读笔记及复现

文章目录MethodModel Overview1. Word Representation Layer2. Context Representation Layer3. Matching Layer4. Aggregation Layer5. Prediction LayerMulti-prespective Matching Operation实验实验设置实验结果论文贡献: 提出了一种双向的...
复制链接

扫一扫

专栏目录