图文结合-imagebert

poorlytechnology

于 2022-12-08 17:27:20 发布

阅读量429

点赞数

分类专栏：图文结合 nlu 文章标签：自然语言处理图像处理

本文链接：https://blog.csdn.net/poorlytechnology/article/details/128240764

版权

图文结合同时被 2 个专栏收录

7 篇文章 4 订阅

订阅专栏

nlu

4 篇文章 0 订阅

订阅专栏

本周看了一篇图文结合的论文，由于论文的代码并没有开源，所以看的比较粗，但是在对多模态的处理方式上，还是有多借鉴的地方

论文信息

论文地址：

https://arxiv.org/abs/2001.07966

主要内容

本文的对象是预训练模型，所以其重点有：

预训练的任务
模型的输入方式
预训练的策略
微调

（1）预训练的任务

既然是预训练模型，那么开头肯定是确定预训练的任务。对于图文结合，什么样的预训练任务可以将两种模态的信息尽可能交互呢

按照我们常规的思路就是，先将文本与图像分开编码，饭后使用attention实现两者的交互，这就是双流模型的主要思想，模型的结构会在后文介绍

但本文的思想略有不同，按照作者的想法是希望可以在输入阶段就把图像-文本的输入合并，然后直接使用attention对合并后的输入进行编码交互，实现模态交互

本文设计的预训练任务为：

文本
- masked language modeling：也就是mlm
  
  其loss计算公式如下：
  
  $KaTeX parse error: Undefined control sequence: \m at position 58: …ta}(w_{m_T}|w_{\̲m̲_T},v)$
  
  其中 $w={w_0,w_1,...,w_{n-1}}$ 表示输入的序列， $v={v_0,v_1,v_{n-1}}$ 表示经过cross-attention后输出的序列， $m_T$ 表示被mask的token， $KaTeX parse error: Undefined control sequence: \m at position 1: \̲m̲_T$ 表示没有被mask，loss有每个 $(v, w)$ 对计算， $D$ 表示训练集
图像
- masked object classification：MOC，具体来说就是一个分类任务，分类的对象是图片，并且和文本一样，对图片进行了15%的mask（90%使用mask token代替，10%保持不变）
  
  其标签使用的是faster-cnn提取的图片的roi特征，目标是预测被mask的图片的token，损失函数使用的是交叉熵
  
  loss的计算公式如下：
  
  $L_{MOC}(\theta)=-E_{(v,w)\in{D}}\sum\limits_{i=0}^{M-1}CE(l_{\theta}(v_{m_I}^{i}),f_{\theta}(v_{m_I}^{i}))$
- Masked Region Feature Regression：MRFR，对图片mask区域的embedding进行回归，使用L2做为损失函数，相比于MOC可以做的更加精确，其计算公式为：
  
  $L_{MRFR}(\theta)=-E_{(v,w)\in{D}}\sum\limits_{i=0}^{M-1}||h_{\theta}(v_{mI}^{(i)})-r_{\theta}(v_{mI}^{(i)})||_2^2$
  
  其中， $h_{\theta}(v_{mI}^{(i)})$ 表示需要回归的目标， $r_{\theta}(v_{mI}^{(i)})$ 表示用fc层将ROI特征转化为向量表示
文本-图像
- Image-Text Matching：ITM，学习文本-图片的对齐性。对每个训练样本，随机采样图片的文本负例和文本的图片负例，生成负的训练数据。用[CLS]做为模型输入序列的第一个token，同时使用fc层去获得文本-图片的相似度得分。该任务使用的是二分类的loss，计算公式如下：
  
  $L_{IMT}(\theta)=-E_{(v,w)\in{D}}[ylogs_{\theta}(v,w)+(1-y)log(1-s_{\theta}(v,w))]$
  
  其中 $s_{\theta}(v,w)$ 表示经过fc层后的文本-图片相似度得分

以上就是预训练的全部任务，一个文本，两个图片，一个多模态，其中图片分别使用分类和回归做为任务，其中分类任务是token级别的，回归任务是embedding级别的，作者为了证明这样做的合理性，也给MRFR做了消融实验，结果如下：

下面的实验是使用了MRFR的，这个实验是一个zero-shot，可以看到加入MRFR后，提升还是比较大的，作者由此得出的结论是：对图片任务，添加harder任务，有利于文本-图片多模态的最后结果

（2）模型的输入方式

上面我们知道了整个预训练有哪些任务，现在我们回头看看，需要怎么对输入进行处理

对于多模态模型，输入是一个非常重要的特点。单以图文结合来说，根据输入方式的不同，模型可以分为两类，单流模型和双流模型。

其中单流模型表示输入方只有一条线，也就是图像和文本合并在一起输入；双流模型则表示图像和文本分开输入。如下图所示：

本片论文使用的就是单流的方式，先对文本特征与图片特征拼接，然后输入一个encoder，后面就使用bert对编码进行一系列得变换，最后根据预训练任务对参数进行更新

其中，对于文本正常处理；对于图片则需要进行一些变换，具体步骤如下：

使用faster-rcnn提取图片的roi特征
将ROI特征编码为序列并与文本序列合并

如下图所示，为imagebert的结构图

可以看到，输入一共分成三个部分，Linguistic Embedding、Segment Embedding和mermaid sequenceDiagram Position Embedding。

sequenceDiagram Position Embedding：整个序列的位置编码，可以看到作者给了图片一个模糊的位置编码，全部用1表示，而文本则正常。作者解释为，图片的ROI特征之间是没有顺序的，并且图片的坐标信息在Linguistic Embedding就已经加入了，而且，Segment Embedding```已经起到了区分图片和文本的作用，所以这里只是起到一个同一向量维度的作用

Segment Embedding：用于区分图片和文本
Linguistic Embedding：这个输入就想对复杂点，不过也仅仅局限于图片的输入，文本的输入照常。其中需要先提取图片的ROI特征，然后加上位置信息，position Embedding的计算方式如下：

$c^{(i)}=({{x_{tl}}\over{W}},{{y_{tl}}\over{H}},{{x_{br}}\over{W}},{{y_{br}}\over{H}},{{(x_{br}-x_{tl})(y_{br}-y_{tl})}\over{WH}})$

可以注意到，这个公式里 ${{(x_{br}-x_{tl})(y_{br}-y_{tl})}\over{WH}}$ ，这部分表示该ROI区域在相对于整个图像的比例，我是觉得这里应该是作者笔误了， $y_{br}-y_{tl})$ 很明显就是一个负数，比例一般都是整数才对，所以我觉得应该是 $y_{tl}-y_{br})$

其中， $x_{tl},y_{tl})$ 和 $x_{br},y_{br})$ ROI区域的左上和右下两个顶点的坐标

同时，可以看到图片中还有一个Image Embedding，应该是faster-rcnn提取得到的

（3）预训练策略

本文使用了与以往不同的预训练策略，作者称其为两阶段预训练。作者说这样做的原因是他们收集了很多的数据集，而不同的数据集有着不同的来源、不同的质量以及不同的噪声。为了更好的利用这些数据集，所以提出了多阶段的预训练策略

作者说明，为了使得预训练模型更加适合下游任务，应该先使用一个大范围的、out-of-domain数据来训练，然后使用小范围的、domain的数据来训练。有没有发现和我们平时的做法很像，就是用领域内的数据对bert进行一波预训练

更具体的，作者在预训练的第一阶段使用的数据集是LAIT（它们自己做的数据集，据说数据集的名声比模型本身还大），然后第二阶段使用的是其他公共数据集（CC+SBU，这两个数据集应该是领域内的公共数据集）。

作者对此也做了实验验证

可以看到，使用两阶段的效果好很多

（4）微调

作者的下游任务选择的是图文检索，在数据集MSCOCO和Flickr 30k上进行。微调任务在输入上是没有mask的，模型的训练目标是图片-文本匹配和文本-图像匹配

作者实验了三个不同的loss函数，分别是Binary classification Loss、Multi-class Classification Loss和Triplet Loss

Binary classification Loss：这里比较简单，每个样本对 $(v, w)$ 对应的标签就是01
Multi-class Classification Loss：这是扩大正负样本之间的边距的最广泛使用的损失。对每个正样本对，采样 $P - 1$ 个负样本对，然后以 $P$ 对样本对的第一个token的正确性，使用CE来计算损失函数
Triplet Loss：之前看到这个loss还是在sbert，最大化正样本和最难负样本之前的区别。最难负样本的下式给出

$n_h^-=argmax_{(v,w)^j\neq{(v,w)}}+s(t_{(v,w)^j})$

其中 $s(t_{(v,w)^j})$ 表示Multi-class Classification Loss中计算的样本对的相似度得分

loss的计算公式为：

$L_{Triplet}(\theta)=-E_{(v,w)}^{(j)}\sum\limits_{n^-\in{N}}max[0,s(t_{(v,w)^+}),s(n_h^-)]$