翻译：SmFace: Pre-training Encoder and Decoder with a Semantic Interface for Neural Machine Translation

最新推荐文章于 2023-06-16 19:24:49 发布

洛克-李

最新推荐文章于 2023-06-16 19:24:49 发布

阅读量248

点赞数

分类专栏：深度学习文章标签：自然语言处理深度学习预训练

本文链接：https://blog.csdn.net/qq_30232405/article/details/120699960

版权

深度学习专栏收录该内容

28 篇文章 1 订阅

订阅专栏

1.背景

在这里插入图片描述

这篇文章是北航和亚洲微软研究院共同发表的。目前主流的NLP任务，都需要先预训练模型，例如Bert和ALBert。本文章也主要集中在机器翻译（NMT）上的预训练任务。

本文指出，以前的预训练任务，并没有训练encoder和decoder之间的cross-attention，这会导致在fine-tuning阶段并没有巨大的提升。针对预训练任务上，cross-attention的训练，本文提出了两个语义交互（semantic interface）方法：

CL-SemFace：使用交互语言embeddings，训练attention的参数
VQ-SemFace：使用量化embedding，把encoder output和decoder inputs限制在同一语言独立空间中

实验中，用到了6个有监督翻译语言对，3个无监督翻译语言对

2. 引入

以前，预训练通常方法是在encoder和decoder上，利用大数据集独立进行训练，这种做法忽略了attention层的参数训练。论文中提到，通过语义接口（semantic interface），编码器经过预训练以将特征提取到该空间，解码器经过预训练以生成encoder提供的内容。

CL-SemFace：使用cross-lingual embeddings（跨语言）无监督训练
VQ-SemFace：同时映射encoder outputs 和decoder inputs 到同一VQ空间中

3.方法介绍

在这里插入图片描述
首先整个预训练阶段如上图所示。

（1）首先，使用单语数据分别预训练编码器和解码器，它们之间有语义接口。其中 $x_1$ 输入到encoder中， $x_2$ 输入到docoder中，两个输入用到的是两种不同的语言。
（2）编码器经过预训练得到Semantic Interface，而解码器经过预训练通过cross-attention内容完成解码。

具体的执行算法如下：
在这里插入图片描述

输入：语料库 $D_x$ 和 $D_y$ ，输出：更新参数 $M_\theta$
（1）随机初始化encoder和decoder的参数 $\theta_{enc}$ 和 $\theta_{dec}$ ，还有semantic interface 的参数 $\theta_{sf}$
（2）针对CL-SemFace，初始化 $\theta_{sf}$ 作为预训练embeddings
（3）从两个语料库中随机选择batch $B$ ；输入 $B$ 到encoder和SemFace中，更新参数 $\theta_{enc}$ 和 $\theta_{sf}$ ；在输入 $B$ 到decoder中，更新参数 $\theta_{dec}$

3.1 CL-SemFace

在这里插入图片描述
（1）encoder：输入 $x_1$ ，利用MLM任务和MSE任务，进行与训练

（2）cross-attention：在 $x_2$ 中添加噪声，得到 $C(x_2)$ 。把ecoder中得到的BPE embedding拿出来，然后用第二个样本 $x_2$ 进行输入编码，得到 $E$ 。把 $E$ 和 $x_2$ 进行相乘，用来训练decoder

（3）这种做法就可以同时训练attention层

3.2 VQ-SemFace

在这里插入图片描述

CL-SemFace主要是用来约束word embedding，意味着不同的单词可能有同样的embedding，同时网络的units需要和词典的大小一致。

因此VQ-SemFace主要用来学习上下文独立的语义，它主要参考了VQ-VAE模型，设定了一个潜在空间。

VQ的定义可以参考这个网址：https://zhuanlan.zhihu.com/p/91434658

VQ方法：把 $x_1$ 输入到encoder得到 $h$ ，然后在code-book（前在语义空间）找到最相似的 $z$

4.实验

在fine-tuning阶段，去掉了semantic interface，直接使用cross-attention进行解码和编码。

在这里插入图片描述

在多个数据集上，效果比Transformer要好。

洛克-李

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
翻译：SmFace: Pre-training Encoder and Decoder with a Semantic Interface for Neural Machine Translation

1.背景这篇文章是北航和亚洲微软研究院共同发表的。目前主流的NLP任务，都需要先预训练模型，例如Bert和ALBert。本文章也主要集中在机器翻译（NMT）上的预训练任务。本文指出，以前的预训练任务，并没有训练encoder和decoder之间的cross-attention，这会导致在fine-tuning阶段并没有巨大的提升。针对预训练任务上，cross-attention的训练，本文提出了两个语义交互（semantic interface）方法：CL-SemFace：使用交互语言embedd
复制链接

扫一扫