论文解读UNITER: UNiversal Image-TExt Representation Learning

论文解读UNITER: UNiversal Image-TExt Representation Learning

简介

论文链接: link.
以后争取保持一周3更及以上。UNITER是一个图文表征学习的预训练模型。废话不多说,直接上干货。

结构解读

在这里插入图片描述

其结构十分明了。一个image embedder,一个text embedder。然后加多个transormer layer。image embedder 还是采用的faster rcnn,注意的是faster rcnn提取完特征后又加上了location信息,然后通过一个fc层将维度映射到与文本统一维度,之后又做了layer normalization。文本部分与bert相比多了一个fc层。然后图片特征与文本特征连接后输入到transformer。

预训练方法

uinter 有四种预训练方法(i) Masked Language Modeling (MLM) conditioned on image;
(ii) Masked Region Modeling (MRM) conditioned on text; (iii) Image-Text Matching (ITM); and
(iv) Word-Region Alignment (WRA).

Masked Language Modeling (MLM) :与bert 一样,80%时间mask 百分之15单词,10% 替换成随机其他,10% 保持不变。

Masked Region Modeling (MRM):mask 的方式是将特征全置0. 但是其损失函数有三种方式构建。
第一种:Masked Region Feature Regression (MRFR),首先将transformer 的输出通过一个fc 层将其映射到原来的维度,也就是刚被faster rcnn 提取后的维度。然后使用l2 回归的损失。
在这里插入图片描述
其中h(vm)是transformer 的输出通过一个fc 层得到的特征,r(vm)是 刚被faster rcnn 提取后的特征。这两者之间计算损失。

第二种:

在这里插入图片描述

这个损失的意思就是将transformer 的输出通过一个fc 层输出k类,就是一个多目标分类。其label 就是 fast rcnn检测到的物体。相当于一个交叉熵损失。
第三种:Masked Region Classification with KL-Divergence (MRC-kl):
这个就是用KL-Divergence 做损失函数了。输入的数据分布于预测的数据分布之间距离尽量小。

Image-Text Matching (ITM):

在这里插入图片描述
这个比较容易理解,就是加一个[cls] token,用最后一层的cls token 加一个fc 层,去做二分类。 负样本是随机选择其他样本的图片或文字。

Word-Region Alignment (WRA):

在这里插入图片描述
WRA 利用 Optimal Transport (OT) 理论来显式地鼓励预训练期间单词和图像区域的细粒度对齐。

剩下的就是论文的预训练数据集,下游任务,和实验结果了
。感兴趣的额可以自己查看原文。

在这里插入图片描述

以上就是univer的主要内容了。

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值