【论文】UNITER

最新推荐文章于 2023-09-10 19:08:09 发布

大白羊_Aries

最新推荐文章于 2023-09-10 19:08:09 发布

阅读量584

点赞数

分类专栏： MILVLG 文章标签：深度学习自然语言处理

本文链接：https://blog.csdn.net/qq_38204302/article/details/120709075

版权

MILVLG 专栏收录该内容

41 篇文章 1 订阅

订阅专栏

【论文】Chen, Yen-Chun, Linjie Li, Licheng Yu, Ahmed El Kholy, Faisal Ahmed, Zhe Gan, Yu Cheng, and
Jingjing Liu. UNITER: UNiversal Image-TExt Representation Learning. （pdf）

What is UNITER

UNITER 主要的不同是给多模态社区带来了新的同于 ViLBERT、LXMERT 的路线——在模态特征融合方面，可以共享一个编码器。虽然 encoder 的输入源不同，但是通过 transformer 的双向连接也能实现跨模态的交互

UNITER 由 3 部分组成：

有 2 种 Embedder 结构，Image Embedder 通过 Faster-RCNN 输出的 ROI feature 和 7-D 的位置特征 $x_1,y_1,x_2,y_2,w,h,w*h]$ （normalized top/left/bottom/right coordinates, width, height, and area）进行融合建模；Text Embedder 参考 BERT 输入， token embedding 和 position embedding 相加之后经过一个 LayerNorm 得到 text feature

建模完的 image feature 和 text feature 直接接入 transformer 进行双向建模，融合两种模态，从而达成目的，不同于 two-stream 预训练模型，这两类模态在 UNITER 中共享同一个 encoder

作者设计了 4 种预训练的任务去训练模型，

前三个任务 Masked Language Modeling（MLM）、MRM（Mask Region Model）和 Image-Text-Matching（ITM）都是一些常见的多模态预训练任务。其中，MRM 有 3 个变体任务：MRC（Mask Region Cls），MRFR（Mask Regin Feature Regress），MRC-KL（MRC + KL divergency）
第四个任务是 WRA（Word Region Alignment），这个任务主要关心的是词和图像区域的对齐，和 ITM 不同，ITM 关心的是句子和图像的对齐

Pre-training Tasks

MLM

被遮掉的词记为 $\mathbf w_{\mathbf m}$ ，其附近的词为 $\ m \mathbf w_{\backslash\mathbf m}$ ，目标采用最小负对数似然损失，包括对周围词的观察和对所有图像区域的观察

MRFR

输入的 ROI pooled feature 记为 $r(\mathbf v_{\mathbf m}^{(i)})$ ，transformer 输出的结果经过一层 FC layer 变换到和 ROI pooled feature 一样的维度大小，记为 $h_{\theta}(\mathbf v_{\mathbf m}^{(i)})$ 表示遮罩区域预测的结果，目标采用 L2 损失

MRC

transformer 的输出经过一层 FC layer 和一层 softmax 得到一个归一化的预测分布 $g_{\theta}(\mathbf v_{\mathbf m}^{(i)})$ ，由于在数据集中并没有提供每个对象的分类标签，所以将被遮掉的区域通过 Faster RCNN 用对象检测器得到置信度分数最高的分类标签，同时得到一个 one-hot vector $c(\mathbf v_{\mathbf m}^{(i)})$ ，目标使用交叉熵损失

MRC-KL

MRC 是采用了一种预测 hard label 的方式，即输出 0 or 1，我们也可以考虑采用 soft label 的方式——比较两个输出的分类分布

ITM

UNITER 中同样也有 [CLS] 这样的 special token，在 [CLS] 上应用一个 FC layer 计算输入图文对的匹配得分，记为 $s_{\theta}(\mathbf v, \mathbf w)$ ，很显然 ITM 是一个二分类问题，输出标签记为 $y\in\left\{0,1\right\}$ ，目标采用二进制交叉熵损失

WRA

WRA 使用了 Optimal Transport，记 $\mathbf T\in\mathbb R^{T\times K}$ 表示学习得到的 transport plan，它提供了一种最优化 $\mathbf w$ 和 $\mathbf v$ 之间对齐的方案

作者主要考虑 OT 下面的 3 点特性非常适合 WRA 任务：

self-normalization： $\mathbf T$ 中所有的元素之和为 1
sparsity：优化结束后， $\mathbf T$ 至多只有 $2\cdot max(K,T)-1$ 个非零元素，这样可以得到一个易于解释且稳定的对齐方案
efficiency：与常规的线性规划求解不同，OT 只用到迭代和矩阵向量乘法就可以解决，很适合大规模的模型预训练使用

具体来说，记 $(\mathbf w,\mathbf v)$ 的离散分布为 $\mathbf\mu,\mathbf\nu$ ，其中
$\mathbf\mu=\sum\limits_{i=1}^T\mathbf a_i\delta_{\mathbf w_i},\ \mathbf a=\left\{\mathbf a_i\right\}_{i=1}^T\\ \mathbf\nu=\sum\limits_{j=1}^K\mathbf b_j\delta_{\mathbf v_j},\ \mathbf b=\left\{\mathbf b_j\right\}_{j=1}^T$
$\mathbf a,\mathbf b$ 作为权重向量， $\sum\limits_{i=1}^T\mathbf a_i=\sum\limits_{j=1}^K\mathbf b_j=1$

于是， $\mathbf\mu,\mathbf\nu$ 之间的 OT distance 就可以用于训练图文对 $(\mathbf w,\mathbf v)$ 对齐，用数学公式描述为
$\mathcal L_{WRA}(\theta)=\mathcal D_{ot}(\mathbf\mu,\mathbf\nu)=\underset{T\in\Pi(\mathbf a,\mathbf b)}{min}\ \sum_{i=1}^T\sum_{j=1}^K\mathbf T_{ij}\cdot c(\mathbf w_i,\mathbf v_j)$
其中， $\Pi(\mathbf a,\mathbf b)=\left\{\mathbf T\in\mathbb R_+^{T\times K}|\mathbf T\mathbf 1_m=\mathbf a,\mathbf T^T\mathbf 1_n=\mathbf b\right\}$ ， $\mathbf 1_n$ 表示一个维度为 $n$ 的全 1 向量， $c(\mathbf w_i,\mathbf v_j)$ 是计算 $\mathbf w_i$ 和 $\mathbf v_j$ 之间距离的代价函数，在实验中采用余弦距离，即 $c(\mathbf w_i,\mathbf v_j)=1-\frac{\mathbf w_i^T\mathbf v_j}{||\mathbf w_i||_2||\mathbf v_j||_2}$

实际中计算 $\mathbf T$ 是相当耗费计算资源的，所以采用 IPOT 算法近似求解 $\mathbf T$

Experiments

下表展现了 UNITER Base 和 Large 在 6 个下游任务、包含 9 个数据集上的表现：UNITER-Base 在 9 个数据集上面几乎都好于其他的模型，而 UNITER-Large 则取得了当前最好的效果

Reference

UNITER多模态预训练模型原理加代码解读

大白羊_Aries

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
【论文】UNITER

【论文】Chen, Yen-Chun, Linjie Li, Licheng Yu, Ahmed El Kholy, Faisal Ahmed, Zhe Gan, Yu Cheng, andJingjing Liu. UNITER: UNiversal Image-TExt Representation Learning. （pdf）What is UNITERUNITER 主要的不同是给多模态社区带来了新的同于 ViLBERT、LXMERT 的路线——在模态特征融合方面，可以共享一个编码器。虽.
复制链接

扫一扫

专栏目录