论文阅读【Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks】

最新推荐文章于 2024-05-23 17:35:22 发布

hei_hei_hei_

最新推荐文章于 2024-05-23 17:35:22 发布

阅读量811

点赞数

分类专栏：论文阅读文章标签：深度学习计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hei_hei_hei_/article/details/126555945

版权

论文阅读专栏收录该内容

27 篇文章 4 订阅

订阅专栏

Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks

1. 简介

发表：ECCV 2020
解决问题：论文主要是想解决视觉语言跨模态表示中的对齐问题
传统方法：传统的视觉语言对齐主要依赖于<文本，图像>这样的二元组学习对齐存在着两个问题：（1）object区域之间存在着重叠，特征不准确，导致提取的visual embedding有噪声；（2）是弱监督学习，没有较为精准的视觉语言对齐标签。
方法：作者考虑到目标检测的标签兼具视觉和语言特征，一方面目标的标签是语言表示，另一方面其对应着视觉中的区域，能够很好地用来指导视觉和语言的对齐。

2. 方法

2.1 数据定义

将image-text pair表示为<文本，标签，图像>的三元组 $< w, q, v >$ ，每张图像提取K个region。其中w表示与图像对应的文本；q表示K个目标标签的embedding；v表示K个region特征，region特征为region representation和position拼接之后接一个线性层。

2.2 语言角度

从dictionary的角度考虑q，可以设计类似bert的预训练任务，即掩码。定义discrete token sequence $h\triangleq[w,q]$ ，并使用Masked Token Loss进行训练，将15%的token替换为[mask]并进行预测
在这里插入图片描述

2.3 视觉角度

从模态的角度考虑，通过对比学习来强调对齐。定义 $h'\triangleq[q,v]$ ，sample一些“污染的”负样本：将50%的 $h^{'}$ 中的q替换成其他目标标签，之后在特征后接一个全连接层进行二分类
在这里插入图片描述

3. 实验

在一个包含650万文本-图像对的公开数据集上预训练了Oscar模型，然后在下游任务中对模型进行微调，在六个视觉语言理解及生成任务上取得目前最好的结果

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
论文阅读【Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks】

论文阅读【Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks】
复制链接

扫一扫

专栏目录

博客等级

码龄6年

94
原创

48
点赞

283
收藏

34
粉丝

关注

私信

热门文章

分类专栏

diffusion model 2篇
论文阅读 27篇
各种出错 5篇
刷题
pytorch 5篇
Python 4篇
学习笔记 13篇
杂集 4篇
NLP 1篇
GNN 2篇
c++常用操作 1篇
蓝桥杯 2篇
csp 17篇
PAT甲级 3篇
并查集 1篇

最新评论

论文阅读【SWINBERT: End-to-End Transformers with Sparse Attention for Video Captioning】
weixin_47622635: sparse attention mask 相当于没讲啊，原论文也是这样，具体解析没有
深度学习笔记
十六钧: 总结的好棒，受益匪浅！收藏了！
stable diffusion其他微调方法
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/615865688。
【论文阅读】ControlNet
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
【论文阅读】Lora
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。