论文解读UNITER: UNiversal Image-TExt Representation Learning

黑夜使者

已于 2022-03-04 13:28:40 修改

阅读量4.1k

点赞数 2

文章标签：深度学习自然语言处理 transformer

于 2022-03-04 09:57:58 首次发布

本文链接：https://blog.csdn.net/qq_41932160/article/details/123263724

版权

论文解读UNITER: UNiversal Image-TExt Representation Learning

简介
结构解读
预训练方法

简介

论文链接: link.
以后争取保持一周3更及以上。UNITER是一个图文表征学习的预训练模型。废话不多说，直接上干货。

结构解读

在这里插入图片描述

其结构十分明了。一个image embedder，一个text embedder。然后加多个transormer layer。image embedder 还是采用的faster rcnn，注意的是faster rcnn提取完特征后又加上了location信息，然后通过一个fc层将维度映射到与文本统一维度，之后又做了layer normalization。文本部分与bert相比多了一个fc层。然后图片特征与文本特征连接后输入到transformer。

预训练方法

uinter 有四种预训练方法(i) Masked Language Modeling (MLM) conditioned on image;
(ii) Masked Region Modeling (MRM) conditioned on text; (iii) Image-Text Matching (ITM); and
(iv) Word-Region Alignment (WRA).

Masked Language Modeling (MLM) ：与bert 一样，80%时间mask 百分之15单词，10% 替换成随机其他，10% 保持不变。

Masked Region Modeling (MRM)：mask 的方式是将特征全置0. 但是其损失函数有三种方式构建。
第一种：Masked Region Feature Regression (MRFR)，首先将transformer 的输出通过一个fc 层将其映射到原来的维度，也就是刚被faster rcnn 提取后的维度。然后使用l2 回归的损失。
在这里插入图片描述
其中h（vm）是transformer 的输出通过一个fc 层得到的特征，r（vm）是刚被faster rcnn 提取后的特征。这两者之间计算损失。

第二种：

在这里插入图片描述

这个损失的意思就是将transformer 的输出通过一个fc 层输出k类，就是一个多目标分类。其label 就是 fast rcnn检测到的物体。相当于一个交叉熵损失。
第三种：Masked Region Classification with KL-Divergence (MRC-kl)：
这个就是用KL-Divergence 做损失函数了。输入的数据分布于预测的数据分布之间距离尽量小。

Image-Text Matching (ITM)：

在这里插入图片描述
这个比较容易理解，就是加一个[cls] token，用最后一层的cls token 加一个fc 层，去做二分类。负样本是随机选择其他样本的图片或文字。

Word-Region Alignment (WRA)：

在这里插入图片描述
WRA 利用 Optimal Transport (OT) 理论来显式地鼓励预训练期间单词和图像区域的细粒度对齐。

剩下的就是论文的预训练数据集，下游任务，和实验结果了
。感兴趣的额可以自己查看原文。

在这里插入图片描述

以上就是univer的主要内容了。

黑夜使者

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
论文解读UNITER: UNiversal Image-TExt Representation Learning

论文解读UNITER: UNiversal Image-TExt Representation Learning简介结构解读预训练方法简介以后争取保持一周3更及以上。UNITER是一个图文表征学习的预训练模型。废话不多说，直接上干货。结构解读其结构十分明了。一个image embedder，一个text embedder。然后加多个transormer layer。image embedder 还是采用的faster rcnn，注意的是faster rcnn提取完特征后又加上了location信息
复制链接

扫一扫