CVPR 2020 《12-in-1: Multi-Task Vision and Language Representation Learning》论文笔记

最新推荐文章于 2024-08-06 20:01:53 发布

NeverMoreH

最新推荐文章于 2024-08-06 20:01:53 发布

阅读量1.2k

点赞数

分类专栏： vision&language # visual BERT 文章标签： CVPR2020 12-in-1 VLBERT

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ms961516792/article/details/108316535

版权

vision&language 同时被 2 个专栏收录

53 篇文章 9 订阅

订阅专栏

6 篇文章 0 订阅

订阅专栏

目录

简介
动机
贡献
方法
实验

简介

本文是在NIPS 2019 ViLBERT上的拓展。
论文链接

动机

本文修改了ViLBERT的预训练过程，有两个小修改：1. 对regions进行mask时，将IoU大于0.4的regions也mask掉，避免视觉信息泄漏；2. 在多模态对齐的负样本采样时，不强制masked multi-modal modelling loss，这样可以有效地降低负样本带来的噪声。

贡献

提出Clean V&L Multi-Task setup，可以在多任务训练过程中，确保没有任务泄漏；
提出多任务训练模型，在12个V&L数据集上同时训练，在四个任务上进行了验证：Vocab-based VQA、Image Retrieval、Referring Expressions和Multi-modal Verification。

方法

本文没给框架图，下图出自NIPS 2019 ViLBERT。

多任务学习的过程：

实验

下图是实验结果，row1-2是single-task training，row3-5是multi-task training，row6-9是task-specific fine-tuning。

在多个任务上和SOTA的对比：

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。