文本匹配、文本相似度模型之RE2

最新推荐文章于 2024-05-09 09:37:28 发布

发呆的比目鱼

最新推荐文章于 2024-05-09 09:37:28 发布

阅读量1.3k

点赞数 1

分类专栏：文本匹配文章标签：自然语言处理

本文链接：https://blog.csdn.net/weixin_42486623/article/details/121030997

版权

文本匹配专栏收录该内容

7 篇文章 0 订阅

订阅专栏

简单有效的文本匹配，具有更丰富的对齐功能

github: https://github.com/daiyizheng/shortTextMatch/blob/master/src/DL_model/classic_models/models/RE2.py

本文作者提出了一种快速、强神经网络的通用文本匹配方法。保持序列间对齐可用的三个关键特征:原始点方向特征、先前对齐特征和上下文特征，同时简化所有其余组件。在自然语言推理、意译识别和答案选择任务上达到了很好的性能。

RE2架构如下图所示。embedding层首先映射离散token。然后由encoder层、alignment层和fusion层组成的多个相同结构的块对序列进行连续处理。这些块由增强的残差来连接。pooling层将顺序表示聚合成向量，最后由prediction层处理这些向量以给出最终的预测。

Augmented Residual Connections

为了提供更丰富的对齐功能，RE2采用了增强残差连接来连接连续的block。对于长度为 $l$ 的序列，我们将第n个bloc的输入和输出表示为 $x^{(n)} = (x^{(n)}_1 , x^{(n)}_2 , ... , x^{(n)}_l)$ 和 $o^{(n)} = (o^{(n)}_1 , o^{(n)}_2 , ... , o^{(n)}_l)$ ,其中，设 $o^{(0)}$ 是零向量的序列。第 $n block x^{(n)}$ （n≥2）的输入是第 $1 block x^{(1)}$ 的输入的串联，以及前两个block的输出的求和。

其中 $;$ 表示连接操作

Alignment Layer

对齐层将两个序列的特性作为输入，并计算对齐后的表示作为输出。长度为 $l_a$ 的第一个序列的输入表示为 $a = (a_1, a_2，…， a_{l_a})$ ，长度为lb的第二个序列的输入记为 $b = (b_1, b_2，…(b_{l_b})$ 。 $a_i$ 和 $b_j$ 之间的相似度 $e_{ij}$ 被计算为投影向量的点积:

$F$ 是一个恒等函数或单层前馈网络。这个选择被视为一个超参数。

输出向量 $a^{'}$ 和 $b^{'}$ 是由其他序列表示的加权和计算出来的。该总和由当前位置与其他序列中相应位置之间的相似度评分进行加权。

Fusion Layer

融合层从三个角度比较局部和对齐的表示，然后将它们融合在一起。第一个序列 $\overline{a}$ 的融合层输出由

式中，G1、G2、G3、G为参数独立的单层前馈网络， $\cdot$ 为逐元乘法。减法运算符强调两个向量之间的差异，而乘法则强调相似性。 $\overline{b}$ 的公式类似，此处省略。

Prediction Layer

预测层将来自池化层的两个序列 $v 1$ 和 $v 2$ 的向量表示作为输入，并根据Mou et al.(2016)预测最终目标。

$H$ 是一种多层前馈神经网络。在一个分类任务中， $\hat{y} \in R^C$ 表示所有类的非归一化预测得分，其中 $C$ 为类的数量。预测的类是 $\hat{y} = argmax_i y_i$ 。在回归任务中， $\hat{y}$ 是预测的scala值。