（自用学习笔记）vilt_安装vilt库-CSDN博客

本文链接：https://blog.csdn.net/longa__/article/details/141574378

背景

视觉和语言预训练 (VLP) 在提高了各种联合视觉和语言下游任务上的性能。但是目前的模型都过于看重视觉特征的提取，这导致了两个问题，一就是太费时间了，在视觉上的特征提取花的时间比后面的特征融合还多，这可能会导致泛化到下游任务上去的时候效果不好；二就是特征表达的能力，因为目前的方法更多的是把视觉上的特征提取看做是一个目标检测的问题，但是由于目标检测的数据集都不是特别大，这可能会导致预训练好的目标检测模型抽取出来的特征效果不好。

从图中可以看出来vilt不仅在时间上非常迅速，并且在数据集上测试的效果也不会很差。所以vilt的目的就是提出了一个最小的 VLP 模型，视觉输入的处理被大大简化为与处理文本输入相同的无卷积 (convolution-free) 方式。

目前方法综述

作者把当前的方法分为了四种

a：例如vse系列的工作，在文本端是轻量的嵌入器，图像端就相对计算量大一些，然后在融合的时候就是简单的点乘。

b：例如clip，在图像和文本都是计算量大的嵌入器，但是在融合的时候只是简单的点乘，这样的话只能做一些简单的下游任务。

c：例如Oscar，在视觉特征提取和融合方面都花费许多，它把这个问题看成是一个目标检测，把语义标签融入到了预训练中，这就导致非常的耗时，就像图1展示的一样。

d：vilt，他指出两种模态在投入的参数和/或计算方面要具有相同的表达水平 (even level of expressiveness)并且两种模态需要在深度网络中交互。在vilt中原始像素的嵌入层是浅的，计算上像文本标记 (tokens) 一样轻量。因此，这种架构将大部分的计算集中在模态交互的建模上。

模态交互方式

单流方法，图像和文本输入进行拼接然后输入；
双流方法，其中两种模态未在输入级别上拼接。
vilt遵循单流方法用于交互 Transformer 模块，因为双流方法引入了额外的参数。

模型

主要说说用到的三个目标函数

一：随机以 0.5 的概率将经对齐的 (aligned) 图片 (即与文本对应的图片) 替换成不同的图片。使用一个线性 ITM 头部将经池化的输出特征 p 映射成一个二值类别的 logits (用来判断图像文本是否匹配)，并计算负对数似然 (negative log-likelihood) 损失作为的 ITM 损失。

二：如 BERT 的 MLM 目标MLM 损失被计算为用于 masked tokens 的负对数似然 (negative log-likelihood) 损失。

三：最优运输理论，有点复杂，可以看成是希望图片的概率分布和文字的概率分布尽可能靠近（如果是一对）

全词掩码

全词掩码 (Whole Word Masking) 是一种掩码技术，它 mask 了组成整个词的所有连续子词 tokens。当应用于 BERT 和 Chinese BERT 时，它显示出了对下游任务的有效性

例如，使用经预训练的 bert-base-uncased 标记器 (tokenizer) 将单词 “长颈鹿” 标记 (tokenized) 成 3 个子词 (wordpiece) tokens [“gi”, “##raf”, “##fe”] 。如果不是所有的 tokens 都被 masked，比如 [“gi”, “[MASK]”, “##fe”]，则模型可能仅仅依赖附近的两种语言 tokens [“gi”，“##fe”] 来预测隐藏的 “##raf”，而非使用图像信息。

图像增强

vilt使用了所有的原始策略，除了两种策略：color inversion，因为 文本通常也包含颜色信息，以及 cutout，因为 可能会删除分散在整个图像中的小但重要的物体。

总结

vilt的表现使得未来关于 VLP 的工作会更多地关注 Transformer 模块内部的模态交互，而不是参与一场仅仅推动联合模态 (unimodal) 嵌入器的军备竞赛。尽管 ViLT-B/32 非常引人注目，但它更多地证明了 没有卷积和区域监督的高效 VLP 模型仍然是具有竞争力的。