阅读笔记:Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks

将(单词嵌入,物体标签,图像区域)三元组作为输入

OSCAR引入物体标签用来缓解图像文本对齐学习

其实在多模态论文中,最近发现一些工作是采用了这种类似的想法,将这种文本信息引入到视觉特征中,这些工作均已证明通过这种方式可以促进模态间的对齐

从两个方面来进行预训练(模态角度和字典角度)

A Dictionary View: Masked Token Loss.

将tag或者文本特征mask掉,然后用周围的token和图像特征来预测mask的token,类似于masked language model

A Modality View: Contrastive Loss

将图像的目标tag替换,作为polluted 图像特征,然后编码文本和图像特征,将输出的cls作为最终的融合特征,输入到一个fc分类器中,判断该图像特征是否是polluted

作者的出发点是,tags可以作为图像的代理,由于tag是从image中检测得到的,通过这种方式,使得文本和它成对的图像更加相似,和polluted的图像更加不相似

Adapting to V+L Tasks

Image-Text Retrieval(只看了这个)

在训练期间,作者使用binary classification,给定一个对齐的图像文本对,在随机选择一个不同的图像或者不同的文本作为不对齐的对,然后使用最终的[CLS]特征输入到分类器中来预测给定对是否对齐,作者这里说,没有使用ranking loss,是由于发现binary classification loss效果更好

Experiments 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值