简介
论文链接: link.
以后争取保持一周3更及以上。UNITER是一个图文表征学习的预训练模型。废话不多说,直接上干货。
结构解读
其结构十分明了。一个image embedder,一个text embedder。然后加多个transormer layer。image embedder 还是采用的faster rcnn,注意的是faster rcnn提取完特征后又加上了location信息,然后通过一个fc层将维度映射到与文本统一维度,之后又做了layer normalization。文本部分与bert相比多了一个fc层。然后图片特征与文本特征连接后输入到transformer。
预训练方法
uinter 有四种预训练方法(i) Masked Language Modeling (MLM) conditioned on image;
(ii) Masked Region Modeling (MRM) conditioned on text; (iii) Image-Text Matching (ITM); and
(iv) Word-Region Alignment (WRA).
Masked Language Modeling (MLM) :与bert 一样,80%时间mask 百分之15单词,10% 替换成随机其他,10% 保持不变。
Masked Region Modeling (MRM):mask 的方式是将特征全置0. 但是其损失函数有三种方式构建。
第一种:Masked Region Feature Regression (MRFR),首先将transformer 的输出通过一个fc 层将其映射到原来的维度,也就是刚被faster rcnn 提取后的维度。然后使用l2 回归的损失。
其中h(vm)是transformer 的输出通过一个fc 层得到的特征,r(vm)是 刚被faster rcnn 提取后的特征。这两者之间计算损失。
第二种:
这个损失的意思就是将transformer 的输出通过一个fc 层输出k类,就是一个多目标分类。其label 就是 fast rcnn检测到的物体。相当于一个交叉熵损失。
第三种:Masked Region Classification with KL-Divergence (MRC-kl):
这个就是用KL-Divergence 做损失函数了。输入的数据分布于预测的数据分布之间距离尽量小。
Image-Text Matching (ITM):
这个比较容易理解,就是加一个[cls] token,用最后一层的cls token 加一个fc 层,去做二分类。 负样本是随机选择其他样本的图片或文字。
Word-Region Alignment (WRA):
WRA 利用 Optimal Transport (OT) 理论来显式地鼓励预训练期间单词和图像区域的细粒度对齐。
剩下的就是论文的预训练数据集,下游任务,和实验结果了
。感兴趣的额可以自己查看原文。
以上就是univer的主要内容了。