match-LSTM论文笔记

最新推荐文章于 2024-05-04 23:11:48 发布

lzk_nus

最新推荐文章于 2024-05-04 23:11:48 发布

阅读量360

点赞数

分类专栏： NLP Deep Learning 文章标签： lstm 深度学习人工智能

本文链接：https://blog.csdn.net/qq_42791848/article/details/122396612

版权

Deep Learning 同时被 2 个专栏收录

43 篇文章 4 订阅

订阅专栏

NLP

37 篇文章 6 订阅

订阅专栏

Match-LSTM with Ans-Ptr论文笔记

《MACHINE COMPREHENSION USING MATCH-LSTM AND ANSWER POINTER》论文笔记

Overview

本文是在SQuAD v1.1数据集出世后第一个采用end-to-end的深度学习方法的paper。模型的主要结构是对已有的两个模型的结合：match-LSTM（Jiang&Wang, 2016）和Pointer Net（Vinyals et al., 2015）。相较于人工feature engineering + LR的传统机器学习方法，本文提出的方法在SQuAD数据集上取得了很大成功，在exact match和F1 score上都有质的飞跃。

Model Architecture

正如Overview中所提到的，模型的核心组件主要有两个：match-LSTM、Pointer Net。match-LSTM主要是用来提取query和passage之间的关系，Pointer Net主要是用来输出answer。具体来说，模型有三层：

LSTM Preprocessing Layer
match-LSTM Layer
Answer Pointer Layer

根据Pointer Net中任务的不同，本文又将模型分为两种：Sequence Model和Boundary Model，后面会细说。

在这里插入图片描述

Figure 1

LSTM Preprocessing Layer

首先，文中用一个单向的LSTM分别对passage和query进行embedding，这里的embedding是独立的。
$H^{P}\ =\ \overrightarrow{LSTM}(P)\ =\ [\overrightarrow{h_1^{P}}, \overrightarrow{h_2^{P}}, \dots,\overrightarrow{h_N^{P}}] \\ H^{Q}\ =\ \overrightarrow{LSTM}(Q)\ =\ [\overrightarrow{h_1^{Q}}, \overrightarrow{h_2^{Q}}, \dots,\overrightarrow{h_N^{Q}}] \\$
$H^{P}$ 和 $H^{Q}$ 分别代表passage和query的隐状态矩阵。

match-LSTM

match-LSTM模型（Bidirectional）也是本文作者提出的，原来是用于文本蕴含任务，即给定一个premise和一个hypothesis，让模型去判断premise和hypothesis之间的关系（蕴含关系 entailment / 矛盾关系 contradiction）。因此这里作者把query当作是premise，passage当作是hypothesis。而关系的计算使用的是attention mechanism。
$\overrightarrow{G_i}\ =\ tanh(W^{q}H^{q}+(W^{P}h_{i}^{P}+W^{r}h_{i-1}^{r}+b^{p})\bigotimes e_{Q}) \\ \overrightarrow{\alpha_{i}}\ =\ softmax(w^T\overrightarrow{G_i}+b\bigotimes e_{Q})$
本文中所使用的attention的计算方式应该是additive， $W^{q}、W^{p}、W^{r}$ 是三个参数矩阵， $\bigotimes e_{Q}$ 表示将 $Q$ 个左边的式子concat起来。于是我们就得到了对于passage中的每个单词 $h^{P}_{i}$ ，它与query中所有单词之间的关系 $\overrightarrow{\alpha_{i}}$ 。然后用attention计算weighted sum $H^{q} \overrightarrow{\alpha}^{T}_{i}$ ，最后将weighted sum和 $i$ 位置上passage中单词的hidden state concat起来得到 $i$ 时刻match-LSTM的输入
$\overrightarrow{z_{i}}\ =\ [h_{i}^{P};H^{q} \overrightarrow{\alpha}^{T}_{i}] \\ \overrightarrow{h}_{i}^{r}\ =\ \overrightarrow{LSTM}(\overrightarrow{z_i},\overrightarrow{h}_{i-1}^{r})$
反方向计算同理。其实到这里就不难发现match-LSTM本质上就是一个Seq2Seq模型。

Answer Pointer Layer

从Figure 1中可以看出，Answer Pointer Layer有两种形式，根据形式的不同模型也分别成为Sequence Model和Boundary Model。

Sequence Model

Sequence Model所作的任务是在passage中找到一个序列 $a\ =\ (a_1,a_2,\dots)$ 作为answer。由于answer的长度不是固定的，因此我们需要在原来的passage中加入一个end token（文中用0向量来表示），于是passage的长度变为 $P + 1$ ，并且 $H^{r}$ 变为 $\hat{H}^{r}=[H^{r};0]$ 。接下来的流程与match-LSTM有很多相似之处。为了生成答案中的第 $k$ 个单词，我们依然仿照Seq2Seq Decoder的方式进行计算。令 $\beta_{k,j}$ 表示选取passage中第 $j$ 个单词作为答案的第 $k$ 个单词的概率， $\beta$ 的计算方式与上面相同
$F_{k}\ =\ tanh(V\hat{H}^{r}+(W^{a}h^{a}_{k-1}+b^{a})\bigotimes e_{(P+1)})\\ \beta_{k}\ =\ softmax(v^{T}F_{k}+c \bigotimes e_{(P+1)})$
然后再将weighted sum $\hat{H}^{r} \beta_{k}^{T}$ 作为LSTM的输入得到第 $k$ 个answer的hidden state
$h^{a}_{k}\ =\ LSTM(\hat{H}^{r} \beta_{k}^{T}，h_{k-1}^{a})$
本质上Pointer Net是一个语言模型，因此我们可以直接根据链式法则写出目标函数：
$p(a|H^{r})\ =\ \prod_{k}p(a_k|a_1,a_2,\dots,a_{k-1},H^{r})\\ p(a_k=j|a_1,a_2,\dots,a_{k-1},H^{r})=\beta_{k,j}$
然后用MLE，优化目标函数得到参数即可。

Boundary Model

Boundary Model和Sequence Model唯一的区别就是Boundary Model预测的是answer的start和end，然后取start到end之间的单词作为答案。这种方式叫做span extraction，也是在SQuAD数据集最常用的方式。此时目标函数也就变成了
$p(a|H^{r})\ =\ p(a_s|H^{r})p(a_e|a_s,H^{r})$

Experiment

在实验中，作者用Glove作为word embedding。

在这里插入图片描述

实验结果很清晰地说明了本文提出的方法相较于LR的baseline有了巨大的提升，EM 67.9%、 F1 77.0%。

同时作者将attention进行了可视化

在这里插入图片描述

也能够看出来attention的确是比较准确的把握到了query与passage中单词之间的联系。

lzk_nus

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
match-LSTM论文笔记

Match-LSTM with Ans-Ptr论文笔记《MACHINE COMPREHENSION USING MATCH-LSTM AND ANSWER POINTER》论文笔记Overview本文是在SQuAD v1.1数据集出世后第一个采用end-to-end的深度学习方法的paper。模型的主要结构是对已有的两个模型的结合：match-LSTM（Jiang&Wang, 2016）和Pointer Net（Vinyals et al., 2015）。相较于人工feature engine
复制链接

扫一扫