Raki的读paper小记：SimVLM: SIMPLE VISUAL LANGUAGE MODEL PRETRAINING WITH WEAK SUPERVISION

爱睡觉的Raki

已于 2022-09-02 16:15:09 修改

阅读量844

点赞数

分类专栏：读paper Multimodal 文章标签：深度学习人工智能自然语言处理计算机视觉 bert

于 2022-08-16 20:49:00 首次发布

本文链接：https://blog.csdn.net/raki_j/article/details/126372983

版权

读paper 同时被 2 个专栏收录

83 篇文章 5 订阅

订阅专栏

Multimodal

6 篇文章 0 订阅

订阅专栏

Abstract&Introduction&Related Work

研究任务
大规模端到端弱监督Visual Language Model
已有方法和相关工作
- 面临挑战标注数据的规模有限，为了提高性能，引入了各种特定于任务的辅助损失，这些设计选择使VLP的预训练范式复杂化，为进一步提高质量造成了瓶颈
- 基于预训练-finetune的模型缺少zero-shot的能力
- 之前的工作都是基于特定的任务上，很依赖于目标检测模型和数据
- 最近的一些研究也探索了没有目标检测模块的VLP，但它们仅使用小规模的纯预训练数据，因此其zero-shot能力有限
创新思路
- 通过仅利用弱对齐图像-文本对上的语言建模目标，显著简化了VLP
- 仅仅使用了language model 的 loss
实验结论
在判别和生成的vision-language benchmarks都达到了sota

SimVLM

MLM风格的预训练已在以前的VLP模型中广泛采用，其中输入是图像-文本对，模型需要通过利用图像ROI（region-of-interest）特征来预测Masked Token

或者，单向语言建模（LM）训练模型，以在正向自回归因子分解下直接最大化序列x的可能性：
在这里插入图片描述

PROPOSED OBJECTIVE: PREFIX LANGUAGE MODELING

受LM损失预训练引入的zero-shot能力的启发，我们提出使用Prefix Language Modeling (PrefixLM)预处理视觉-语言表示

PrefixLM不同于标准语言模型，因此它允许对前缀序列进行双向注意力（例如，等式（3）中的x< $T_p$ ），并且仅对剩余的token（例如，x）进行自回归因子分解≥式（3）中的 $T_p$ ）。在预训练期间，长度为（随机选择的） $T_p$ 的token前缀序列从输入序列中截断，训练目标变为：
在这里插入图片描述
直观地说，图像可以被视为其文本描述的前缀，因为它们通常出现在web文档中的文本之前。因此，对于给定的图像-文本对，我们将长度为 $T_i$ 的图像特征序列预先添加到文本序列中，并强制该模型对长度为 $T_p$ 的前缀进行采样≥ $T_i$ 仅计算文本数据上的语言模型损失如图1
在这里插入图片描述
与以前的MLM风格的VLP方法相比，我们在序列到序列框架下的PrefixLM模型不仅享有MLM中的双向上下文表示，而且可以执行类似于LM的文本生成