Multi-Task-DNN（2019ACL）

我黑切呢**

于 2020-12-30 18:37:54 发布

阅读量243

点赞数 1

分类专栏：笔记文章标签：自然语言处理

本文链接：https://blog.csdn.net/qq_43390809/article/details/111974916

版权

笔记专栏收录该内容

74 篇文章 1 订阅

订阅专栏

在这里插入图片描述

  Multi-Task Deep Neural Networks for Natural Language Understanding
  https://github.com/namisan/mt-dnn.

Model

在这里插入图片描述

Lexicon Encoder ( l1):

输入 $X$ = { $x_1$ ,…, $x_m$ }， $m$ 个token,X可以是单个句子，也可以是多个句子的打包
首个token：[CLS]
句子分割：[SEP]
embedding：word, segment, and positional embeddings的加权

Transformer Encoder (l2):

多层biTransformer encoder将输入表示向量映射到一系列上下文嵌入向量：
$C$ $\in$ $R$ $^d$ $^×$ $^m$
这是不同任务之间的共享表示。与BERT不同，MT-DNN除了预训练之外，还使用多任务目标学习表征。

Multi-task layer:

Single-Sentence Classification Output:

$x$ 表示[ $C$ $L$ $S$ ]位置的上下文embedding（可以看作是句子 $X$ 的整体语义表示）
逻辑回归预测：
在这里插入图片描述

Text Similarity Output:

在这里插入图片描述

Pairwise Text Classification Output:

自然语言推理为例：
前提 $P$ ={ $p_1$ ,…, $p_m$ }
假设 $H$ ={ $h_1$ ,… $h_n$ }
关系 $R$
输出模块和stochastic answer network(SAN)方法一样：
在这里插入图片描述
首先通过连接 $P$ 中单词的上下文嵌入来构建前提 $P$ 的working memory， $P$ 是Transformer encoder的输出，表示为 $M^p$ $\in$ $R$ $^d$ $^×$ $^m$ ，类似地，假设 $H$ 的working memory，表示为 $M^h$ $\in$ $R$ $^d$ $^×$ $^n$ 。然后，对记忆执行 $K$ 步推理以输出关系标签，其中 $K$ 是超参数。在开始，初始状态 $s_0$ 是 $M_h$ 的总结:
= P jαjMh j，

其中
在这里插入图片描述

在{ $1$ ， $2$ ,…， $K$ $-$ $1$ }范围内的时间步长 $K$ ，state由
sk = GRU(sk 1，xk)

定义。这里， $x^k$ 根据先前的状态 $s$ $^k$ $^-$ $^1$ 和memory $M^p$ 计算:
xk = P jβJmp jandβj = soft max(sk 1W > 2MP)。
$β_j$ = $s$ $o$ $f$ $t$ $m$ $a$ $x$ ( $s$ $^k$ $^−$ $^1$ $W$ $^T$ $M^p$ )

单层分类器用于确定每个步骤 $k$ :
在这里插入图片描述
最后，通过平均分数来利用所有的 $K$ 个输出:

在这里插入图片描述

Relevance Ranking Output:

QA问题：
在这里插入图片描述

The Training Procedure

Train 两个过程：

pretraining(shared layer encoder)：Mask和NSP
multi-tsak learning：通过具体tsak训练：
分类（交叉熵）：

text similarity tasks（MSE）：
在这里插入图片描述
relevance ranking tasks：（negative log likelihood）
$A^+$ 是正例， $A$ 是候选列表, $l$ $a$ $m$ $d$ $a$ = 1

实验

在这里插入图片描述
GLUE test set results：

领域适用：

Results on the SNLI and SciTail dataset.

我黑切呢**

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Multi-Task-DNN（2019ACL）

Multi-Task Deep Neural Networks for Natural Language Understanding https://github.com/namisan/mt-dnn.ModelLexicon Encoder ( l1):输入XXX = {x1x_1x1,…,xmx_mxm}，mmm个token,X可以是单个句子，也可以是多个句子的打包首个token：[CLS]句子分割：[SEP]embedding：word, segment, and pos...
复制链接

扫一扫

专栏目录