21-22年顶会中对比学习-3

YingJingh

已于 2023-03-22 14:51:10 修改

阅读量367

点赞数

文章标签：学习

于 2023-03-22 14:50:41 首次发布

本文链接：https://blog.csdn.net/Hekena/article/details/129705282

版权

该研究将对比学习引入机器翻译，通过构建统一的多语言翻译模型，利用对比学习缩小不同语言间表示的差距，提升翻译质量。模型基于Transformer结构，结合数据增强策略，如同义词替换，以生成正负样本。实验在多种数据集上验证了方法的有效性，并进行了ablationstudies分析不同组件的影响。

摘要由CSDN通过智能技术生成

一、specific中的对比学习

1.1 机器翻译中的对比学习——Contrastive Learning for Many-to-many Multilingual Neural Machine Translation

二、representation中的对比学习

一、specific中的对比学习

1.1 机器翻译中的对比学习——Contrastive Learning for Many-to-many Multilingual Neural Machine Translation

（1）研究出发点

直观认为《统一的跨语言表示能够引导模型实现更好的多语言转换表现——better multilingual transformation performance》

还有一个矛盾点：有些语言是资源丰富的，但是有些语言的数据资源很匮乏，但是对于这一点，论文中好像并没有太突出怎么解决的。——>bing 的回答是：通过对比学习，鼓励不同语言中具有相似语义的句子进行相似表示的技术，来利用某些语言的丰富资源提高其他语言的翻译质量。

根据这一点，论文提出了 a single unified multilingual translation model.

这个模型是由两部分组成，一部分是对比学习（constrastive learning）,一部分是数据增强手段（data argumentation）

（2）研究任务

Our key insight is to close the representation gap between different languages to encourage transfer learning as much as possible

模型架构如下：

模型架构是用于多语言翻译的对比学习框架（multilingual contrastive learning framework）

模型目标：

类似于对比学习的目标，是让表达相同语义的sentences在语义空间中更接近。

模型损失函数：

两个loss函数，一个是Lctr ,是作为了对比学习的损失函数；一个是交叉熵损失函数，是作为decoder的重构函数。

论文找那个的对比学习的损失函数，给出的key idea是：
The key idea of contrastive learning is to minimize the representation gap of similar sentences and maximize that of irrelevant sentences.

句子的表示使用的是average pooling得到的语义表示。

从公式中，还可以看到有一个参数是temperature，它是一个参数，为了控制区别positive 和 negative examples的难度设置的。

还需要考虑是对比学习中正负例的构建方式，正例一般是语义相同的不同语言的sentences构成的pairs，而负例是从相同training batch中选择的，作为了负例。

模型训练的损失函数是由对比学习的损失函数（句子level）和交叉熵损失函数（token level）。在组合这两个损失函数时，考虑了对比学习的损失函数的权重。——这里是根据实验得到的结果吗？权重项是怎么考虑的？

论文中给的cross_entropy 函数如下：

这个损失函数是用在并行数据集上，也就是有相同语义的但是是不同语言的数据集上，如下图所示，encoder中可能输入的english文本，decoder中可能输出就是法语文本了，是一种语言的文本到另一种语言文本的重建过程。

模型编码器选择是transformer结构，是由12个layer的encoder和12个layer的decoder构成。dimension设置为1024，共有16个heads。在transformer训练上，为了简化训练过程，考虑了使用layer normalization 和 residual connection。

数据增强的策略

通过替换同义词词典中具有相同含义的词，实现了平行和单语数据。

下图中，左侧是单语的平行数据。右侧是多语的平行数据。

For every word contained in the synonym dictionary, we randomly replace it to one of its synonym with a probability of 90%

（3）研究创新点

1、大概应该是第一个将对比学习用到机器翻译领域的。提出了怎么使用对比学习的key idea提高多语机器翻译的效果或者模型性能。

2、在使用对比学习时，正负例策略的构建方案。这篇文章提出的使用同义词词典替换的方法，创建了正负实例。

（4）测评任务

实验数据集：

training过程中的数据集：

1、并行数据集PC32——以英文为主的语料集

2、多语言数据集MC24——增添了三种新的语言，之前没有出现在PC32中的。

evaluation过程中的数据集：

1、zero-shot direction：OPUS-100 zero-shot testset. The testset is comprised of 6 languages (Ru, De, Fr, Nl, Ar, Zh), resulting in 15 language pairs and 30 translation directions.

（5）ablation studys

1、The batch size的影响

2、contrastive loss的影响