文本匹配-HIM(ESIM)

最新推荐文章于 2024-07-21 10:29:48 发布

loveitlovelife

最新推荐文章于 2024-07-21 10:29:48 发布

阅读量255

点赞数

分类专栏： nlp

本文链接：https://blog.csdn.net/loveitlovelife/article/details/118771467

版权

nlp 专栏收录该内容

21 篇文章 4 订阅

订阅专栏

本文介绍了HIM模型，一种结合了BiLSTM和Tree-LSTM的自然语言推理模型。模型通过输入编码、局部推理和推理组合三个层次进行信息处理，利用注意力机制和递归结构增强推理能力，并融合了语法解析信息。在训练过程中采用了Adam优化器，设置特定的学习率和dropout率，以提高模型性能。

摘要由CSDN通过智能技术生成

论文链接地址

Enhanced LSTM for Natural Language Inference

github

to be continued

前言

$\quad$ 本文主要介绍了一种复杂网络建立自然语言推理模型，创新点在于：基于链式的LSTM网络，进一步通过在局部推理建模和推理组合中明确考虑递归架构，同时合并了语法解析信息。

整体模型结构

$\quad$ 整体结构如下图所示：
HIM模型

$\quad$ 该模型为HIM模型（Hybrid Neural Inference Models)，包括输入编码层（Input Encoding）、局部推理层（Local Inference Modeling）、推理组合层（Inference Composition）。其中左边是ESIM（Enhanced Sequential Inference Model）模型，右边是基于Tree-LSTM的网络模型，该模型使用了语法解析信息，整体结构和ESIM类似，最终以平均的方式组合两个模型的输出作为最终的结果。
$\quad$ 对于两个句子 $a=(a_1,...a_{l_a})，b=(b_1,...b_{l_b})$ ，分别是前提 $（ p r e m i s e ）和假设（ h y p o t h i e s ）$ 文本，其中 $a_i和b_j$ 是维度为l的向量，该向量可以通过预训练模型或者句法解析树初始化，目标是获得正确的标签 y。

输入编码层（Input Encoding)

$\quad$ 输入编码层左边使用了BiLSTM模型编码，这里我们用 $\overrightharpoon{a_i}和\overrightharpoon{b_i}$ 分别代表BiLSTM的隐藏状态，公式如下：
$\overrightharpoon{a_i} =BiLSTM(a,i) ，i \in [1,2,...,l_a] ..........(1)$
$\overrightharpoon{b_i} =BiLSTM(b,i) ，i \in [1,2,...,l_b] ............(2)$

$\quad$ 输入编码层右边使用了tree-LSTM模型编码，公式为（3）~（10），整体结构如下图所示：
在这里插入图片描述
$\quad$ 图中的每一个节点输入包含输入向量 $X_t$ 和左右两个子节点的隐藏向量 $h_{t-1}^L和h_{t-1}^R)，$ 经过公式3~10的操作以后获得输出向量 $h_t$ ，结构整齐，理解起来并不难。论文见：
Improved Semantic Representations From Tree-Structured Long Short-Term Memory Networks
在这里插入图片描述
$\quad$ 公式3为一个封装函数，输入为 $X_t、h_{t-1}^L和h_{t-1}^R，输出为h_t$ 。遗忘门中 $c_{t-1}^L和c_{t-1}^R$ 为左右子节点的隐藏向量，经过点乘操作以后更新当前的细胞状态，经过公式（4）输出 $h^t$

局部推理层（Local Inference Modeling）

利用公式11计算出 $\overrightharpoon{a_i} 和\overrightharpoon{b_i}$ 的注意力权重，然后利用公式12、13计算出基于注意力权重的 $\overrightharpoon{a_i} 和\overrightharpoon{b_i}$ 向量。
$e_{ij}=\overrightharpoon{a_i^T} \overrightharpoon{b_i} ...(11)$
$\widetilde{a_i} = \sum_{j=1}^{l_b} \frac{exp(e_{ij})}{\sum_{k=1}^{l_b} exp(e_{ik})}\overrightharpoon{b_j} ,i \in [1,2,...l_a]$
$\widetilde{b_i} = \sum_{i=1}^{l_a} \frac{exp(e_{ij})}{\sum_{k=1}^{l_a} exp(e_{ik})}\overrightharpoon{a_i},j \in [1,2,...l_b]$
进一步增强局部推理信息，公式如14、15：
$ma=[\overrightharpoon{a}; \widetilde{a};\overrightharpoon{a}-\widetilde{a};\overrightharpoon{a}\bigodot\widetilde{a}],$
$mb=[\overrightharpoon{b}; \widetilde{b};\overrightharpoon{b}-\widetilde{b};\overrightharpoon{b}\bigodot\widetilde{b}]$

推理组合层（Inference Composition）

在ESIM中仍然使用公式(1)和(2)，但是输入为 $m_a和m_b$ ，对于tree-LSTM，树节点由如下公式更新：
$v_{a,t} =TrLSTM(F(m_{a,t})，h_{t-1}^L,h_{t-1}^R) .....(16)$
$v_{b,t} =TrLSTM(F(m_{b,t})，h_{t-1}^L,h_{t-1}^R) .....(17)$
其中，函数F为一层全连接神经网络，激活函数为ReLU。

然后将得到的向量做池化处理，这里分别进行最大池化和平均池化，公式如下：
$v_{a,ave} = \sum_{i=1}^{l_a} \frac {v_{a,i}}{l_a},v_{a,max} =max_{i=1}^{l_a} v_{a,i} .....(18)$
$v_{b,ave} = \sum_{i=1}^{l_b} \frac {v_{b,i}}{l_b},v_{b,max} =max_{j=1}^{l_b} v_{b,i}......(19)$
$v=[v_{a,ave};v_{a,max};v_{b,ave};v_{b,max}]$