图文结合-SOHO_image text match-CSDN博客

本文链接：https://blog.csdn.net/poorlytechnology/article/details/128272196

本文介绍一篇图文结合的论文，论文发布于2021年

论文信息

论文题目：

Seeing Out of tHe bOx:End-to-End Pre-training for Vision-Language Representation Learning

论文地址：

https://arxiv.org/abs/2104.03135

代码地址：

https://github.com/researchmm/soho

主要内容

论文提出的模型简称 SOHO。早先的图文模型，对图片进行处理时都会先对其中的特定区域进行特征提取，再以该特征作为图片的向量表征，这部分特征也称作ROI特征。

但是，作者认为，这种方式只能获取到图片的一部分特征，这对图片的语义信息与文本的语义信息的对齐是一项挑战。因此，作者提出SOHO的输入为一个完整的图片，同时因省略了边界框注释，使得模型的推理时间比region-base的模型快了10倍。

1、模型结构

可以看到SOHO采用的也是一个双流的模型，相比与之前工作的不同有两个模块：

图片侧的输入为整张图片，而不是对应的ROI区域
加入了VD来求图片的向量表征

Trainable Visual Encoder

使用CNN-base的模型对输入的图片进行编码，并且使用整张图片作为输入，使用image-level的视觉特征，而非rigion-level的视觉特征。没有了边框的限制，编码器可以从预训练损失或者下游任务的损失中进行端到端的学习更新。

$V=E(I,\theta)\in{R^{l*c}}$

其中 $E ()$ 表示视觉编码器， $I$ 表示输入图片， $\theta$ 表示编码器的参数， $l$ 表示特征向量的数量， $c$ 表示向量维度， $V$ 表示特征向量。

本文使用的CNN-base编码器为ResNet（在ImageNet上预训练好的），后接一个1x1的卷积层和一个2x2的最大池化层

VD-base embedding

VD（visual dictionary）如下图所示：

视觉编码器提取的特征比文本tokens更加的多样和密集，这会给跨模态理解的学习带来困难。为了解决这个问题，作者提出了VD的思想，通过将相似的视觉语义聚合到相同的图像特征中，以此得到图像对应的tokens。

本文通过欧几里得距离实现对语义相似度的计算。更具体地说，事先会定义一个VD矩阵 $D\in{R^{k\times{c}}}$ ，该矩阵有k个embedding向量，维度都是c。那么，字典映射的索引的计算方式为：

$h_i=argmin_j||v_i-d_j||_2$

其中 $d_j$ 表示第j个embedding向量， $v_i$ 表示需要计算的视觉特征。将VD embedding定义为一个函数f，有：

$f(v_i)=d_{h_i}$

以此求得视觉特征V到VD embedding的映射关系。

矩阵D一般是随机初始化的，并通过移动平均对其进行更新：

$\hat{d_j}=\gamma*d_j+(1-\gamma)*\frac{\sum_{h_i=j}v_i}{|f^{-1}(j)|}$

其中 $\gamma$ 表示动量系数，取值在[0,1]。

因为在求映射函数的时候，使用了 $a r g m i n$ 函数，因为该函数不可微分，所以bp将被VD停止，为了使视觉特征可以被训练，作者使用以下的方式更新 $f(v_i)$ ：

$f(v_i)=sg[d_{h_i}-v_i]+v_i$

其中 $sg[\cdot]$ 表示停止梯度操作。

作者实验发现VD存在冷启动的问题，直接将梯度从随机初始化的嵌入向量复制到视觉特征图会导致模型的优化方向不正确，因此，作者在前10个epoch会冻结CNN-base encoder的参数。

文本侧按照常用方式进行编码即可，之后文本的向量表征与根据图片得到的VD-base embedding进行concat，开头和文本结尾使用[CLS]和[SEP]进行标记，最后输入多层Transformer，至此模型搭建完毕。最后根据预训练任务，对模型进行训练即可。

2、预训练任务

SOHO一共进行了3个预训练任务：

（1）MVM(Masked Vision Model)

作者新提出的任务，以VD作为虚拟视觉语义标签。这部分的预训练任务与MLM对称，MLM是针对文本的，MVM是针对图像的，将图像特征在输入Transformer之前随机mask。

其损失函数的计算公式为：
$L_{MVM}=-E_{(W,f(V))\in{D}}logp(f(v_j)|W,f(V)_{/j})$

MVM的目标就是通过没有被mask的相邻的图像特征 $f(V)_{/j}$ 和所有的文本 $W$ 去预测图像中masked特征。

MVM可以帮助模型从上下文视觉信息和语言中推断视觉知识。当图像的特征 $v_i$ 被mask后，它在VD中的映射索引 $h_i$ 将作为其虚拟标签。

在视觉特征图中，相邻特征可能具有相似的值，因此共享相同的映射索引，如果直接以此进行损失函数的计算，就会导致模型直接使用周围特征的标签，而无法学得真正的视觉上下文信息。为了解决这个问题，在mask阶段，先随机选择一个现有的标签索引j，然后[MASK]标记替换 $f^{-1}(j)$ 中所有的视觉向量。

（2）MLM(Masked Language Model)

这部分的任务和BERT里面基本是一样的，不过加入了视觉特征对文本的mask进行辅助预测。其中 $f (V)$ 就是之前提到的映射函数。

损失函数的计算公式为：

$L_{MLM}=-E_{(W,f(V)\in{D})}logp(w_i|W_{/i},f(V))$