文本匹配、文本相似度模型之DecomposableAttention

最新推荐文章于 2024-09-11 11:12:57 发布

发呆的比目鱼

最新推荐文章于 2024-09-11 11:12:57 发布

阅读量385

点赞数

分类专栏：文本匹配文章标签：自然语言处理

本文链接：https://blog.csdn.net/weixin_42486623/article/details/121031060

版权

文本匹配专栏收录该内容

7 篇文章 0 订阅

订阅专栏

用于自然语言推理的可分解注意力模型

github : https://github.com/daiyizheng/shortTextMatch/blob/master/src/DL_model/classic_models/models/DecomposableAttention.py

本文作者提出了一种用于自然语言推理的简单神经架构。使用注意力将问题分解为可以单独解决的子问题，从而使其可以简单地并行化。在斯坦福自然语言推理 (SNLI) 数据集上，获得了SOTA的结果。

方法

模型分为了四个部分：Input representation，Attend，Compare，Aggregate：

Input representation

模型的输入为 $a= (a_1...., a_{l_a})$ 和 $b=(b_1,...,b_{l_b})$ ，分别代表前提和假说， $y^{(n)} = \{y_1^{(n)},...,y_C^{(n)}\}$ 表示a和b之间的关系标签， $C$ 是输出类的数量。训练目标就是根据输入的 $a$ 和 $b$ 正确预测出他们的关系标签 $y$ 。

Attend

使用神经注意的变体对a和b的句子进行软对齐，并将问题分解为对齐子短语的比较。

F是一个激活函数为ReLU的前馈神经网络。
attention权重如下:

Compare

其次，分别比较每个对齐的子短语，生成一组向量 $\{v_{1,i}\}^{l_a}_{i=1}$ 对于 $a$ ，以及 $\{v_{2,j}\} ^{l_b}_{j=1}$ 对于b。每个 ${v_{1,i}\}$ 都是 $a_i$ 及其(软)对齐子短语在 $b$ 中的非线性组合( $v_{2,j}$ 也类似)。

G也是一个前馈神经网络

Aggregate

聚合上一步中的集合 $\{v_{1,i}\}^{l_a}_{i=1}$ 和 $\{v_{2,j}\} ^{l_b}_{j=1}$ ，并使用结果预测标签 $y$ 。

将两个向量concatenate后使用前馈神经网络进行分类。

损失函数利用交叉熵损失函数。

Intra-Sentence Attention

通过句内注意来增强这种输入表示，以编码每个句子中单词之间的组成关系。

$F_{intra}$ 也是一个前馈神经网络

$d_{i-j}$ 表示当前词 $i$ 与句子中的其他词 $j$ 之间的距离偏差，所有距离大于10的词共享一个距离偏差，这样每一个时刻的输入就变为原始输入跟self-attention后的值的拼接所得到的向量 $\overline{a}_i:=[a_i, a'_i], \overline{b}_j:=[b_j,b'_j]$