VILLA: Large-Scale Adversarial Training for Vision-and-Language Representation Learning

连理o

已于 2022-04-09 10:41:46 修改

阅读量1.5k

点赞数

分类专栏： # 多模态文章标签：深度学习计算机视觉机器学习

于 2021-12-16 16:51:40 首次发布

本文链接：https://blog.csdn.net/weixin_42437114/article/details/121872138

版权

13 篇文章 4 订阅

订阅专栏

Introduction

VILLA (Vision-and-Language Large-scale Adversarial training)

在这里插入图片描述

VILLA 是第一个将大规模 对抗训练 (adversarial training) 引入 vision-and-language (V+L) representation learning 来增强模型泛化能力的方法。它实际上是一个通用的框架，可以被运用在任何多模态预训练模型上来提高模型的泛化能力。它由两个步骤组成：(i) task-agnostic adversarial pre-training (APT); (ii) task-specific adversarial fine-tuning (AFT)。也就是说，VILLA 在 pre-training 和 fine-tuning 阶段都使用了对抗学习
作者在论文中将 VILLA 用在了当前的 SOTA 模型 UNITER 上，并在 6 个 V+L 任务上达到了 SOTA (Visual Question Answering (VQA), Visual Commonsense Reasoning (VCR), Referring Expression (RE) Compression, Visual Entailment, Image-Text Retrieval, and NLVR2)

VILLA 在预训练和微调阶段都使用了对抗训练，根据作者的解释，在预训练阶段使用对抗训练能够增加模型的泛化性能，进而有利于模型在 finetuning 阶段的表现。而在 finetuning 阶段使用对抗学习则有利于进一步提升模型性能

由于 VILLA 的主要目的是增加模型的泛化性能而非帮助模型防御真实对抗样本的攻击，因此 VILLA 是直接在 embedding level 上增加扰动而不是在 pixel / token level 上增加扰动。对于文本数据而言，扰动直接加在 word embedding 上，对于图像数据而言，扰动直接加在 image-region features 上
同时，由于图像和文本的特征非常不同，VILLA 一次只在一个模态上增加扰动 (不过作者在论文的脚注里说了其实同时给两个模态增加扰动得到的模型性能也差不多)。设图像和文本的对抗扰动分别为 $\delta_{img}$ 和 $\delta_{txt}$ ，则增加扰动后模型的输出为 $\hat y=f_\theta(x_{img}+\delta_{img},x_{txt})$ 或 $\tilde y=f_\theta(x_{img},x_{txt}+\delta_{txt})$

Training Objective

在这里插入图片描述

其中， $\mathcal{L}_{\text {std }}(\theta)=L\left(f_{\theta}\left(x_{i m g}, x_{t x t}\right), y\right)$ 是由 clean data 计算的 cross-entropy loss； $\mathcal R_{at}(\theta)$ 是 label-preserving AT loss (由于将对抗训练看作一种正则化方式，该 loss 项符号就写作 $\mathcal R$ )； $\mathcal R_{kl}(\theta)$ 为一个 finer-grained adversarial regularization term

label-preserving AT loss

在这里插入图片描述

finer-grained adversarial regularization term

在这里插入图片描述

其中， $L_{k l}(p, q)=\mathrm{KL}(p \| q)+\mathrm{KL}(q \| p)$ ， $\mathrm{KL}(\cdot)$ 为 KL 散度
可以看出， $\mathcal R_{at}(\theta)$ 只是要求模型在输入对抗样本时保持输出的 label 不变， $\mathcal R_{kl}(\theta)$ 则进一步要求预测的置信度也要尽量接近 (This promotes higher smoothness of the training objective and has empirically proven as important regularization effective for further performance boost.)

“Free” AT Strategy

因为 VILLA 在预训练阶段也使用了对抗训练，而对抗训练本身的开销是非常大的，为此 VILLA 使用了 FreeLB 作为对抗训练的算法来尽可能降低训练开销 (实际上感觉开销还是会相当大… FreeLB 的原作者也只是将 FreeLB 用在了 fine-tune 阶段)

下面给出 original FreeLB 算法以供参考：

在 UNITER 的预训练阶段，VILLA 只被应用在了 Masked Language Modeling (MLM) 和 Image-Text Matching (ITM) 上。同时，由于对抗训练开销太大，VILLA 并没有在所有迭代步数中都采用对抗训练，在训练 $\text{UNITER}_{\text{BASE}}$ 时 100k steps 为标准训练，100k steps 为对抗训练，训练 $\text{UNITER}_{\text{LARGE}}$ 时 425k steps 为标准训练，75k steps 为对抗训练，总的训练步数与原来的 UNITER 模型相同
We typically select adversarial learning rate from {1e-2, 1e-3}, adversarial training steps to 3, and $α$ from 1.0, 1.5, 2.0. (详细的参数说明可参加论文的附录部分)

Downstream Task Evaluation

在这里插入图片描述

Pre-training vs. Finetuning

Image vs. Text Modality

paper 也用消融实验证明了在 image 和 text 两个模态都应该使用对抗训练
值得一提的是，在 CV 领域中，对抗训练在让模型增加泛化能力的同时，也会降低模型精度，但这里消融实验的结果表明，只在 image features 上增加扰动也可以显著提升模型的性能

Visualization of text-to-image attention

在这里插入图片描述

关注