文本匹配、文本相似度模型之ESMI

最新推荐文章于 2023-04-13 22:04:35 发布

发呆的比目鱼

最新推荐文章于 2023-04-13 22:04:35 发布

阅读量1.4k

点赞数

分类专栏：文本匹配文章标签：自然语言处理

本文链接：https://blog.csdn.net/weixin_42486623/article/details/121029464

版权

文本匹配专栏收录该内容

7 篇文章 0 订阅

订阅专栏

用于自然语言推理的增强型 LSTM

github: https://github.com/daiyizheng/shortTextMatch/blob/master/src/DL_model/classic_models/models/ESIM.py

本文作者提出了基于LSTM的ESIM模型，该模型优于之前所有的模型。ESMI主要通过链式LSTM（作者也提到了Tree LSTM结构的模型HIM，但是不是重点）与注意力结合的模型，是一个十分复杂但效果在当时很不错的模型。paper用到的数据集是SNI语料库，包含了两个句子和一个标签，这两个句子和标签分表示premise和hypothesis以及0(或者1)。ESIM模型通过预测两个句子的逻辑来判断其之间的关系。

ESIM模型主要由一下组件构成：
(1) input encoding(输入编码)
(2) local inference modeling（局部推理建模）
(3) inference composition（推理组件）

Input Encoding

使用双向LSTM(BiLSTM)作为NLI的基本构建模块之一。使用它来编码输入的premise和hypothesis，可以获得BiLSTM编码局部推理信息及其相互作用。公式如下：

作者也使用了其他的LSTM变种模型，如GRU，但是效果不如LSTM。

Local Inference Modeling

对premise和hypothesis之间的局部次句推理进行建模是确定这两种陈述之间的整体推理的基本组成部分。
在做局部推理之前，需要将两个句子对齐，目前对齐方式有硬对齐或软对齐来关联premise和hypothesis之间的相关性。
本文作者使用软注意对齐层来计算，通过将注意力权重计算为premise和hypothesis之间的隐藏状态 $tuple<\overline{a_i}, \overline{b_j}>$ 的相似性。

局部推理由上述计算出的注意权重 $e_{ij}$ 决定，用于获得premise和hypothesis之间的局部相关性。然后进行两句话的局部推理，用之前得到的相似度矩阵，结合 a，b 两句话，互相生成彼此相似性加权后的句子，维度保持不变。如下公式：

作者使用通过计算 $tuple<\overline{a} ,\widetilde{a}>$ 以及 $tuple<\overline{b} , \widetilde{b}>$ 的差值和元素级乘积。来增强局部推理信息。最后将四种向量拼接在一起，得到 $m_a, m_b$ 。如下公式：