CVPR （《28篇论文、6 大主题带你一览 CVPR 2020 研究趋势》学习笔记六视觉与语言）

最新推荐文章于 2022-05-19 13:37:30 发布

Clark-dj

最新推荐文章于 2022-05-19 13:37:30 发布

阅读量201

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dujuancao11/article/details/107024849

版权

原文链接：https://mp.weixin.qq.com/s/MkEwjHVC9M1JtdzZZdmeFw

视觉与语言

12合1：多任务视觉和语言表示学习

论文地址：https://arxiv.org/abs/1912.02315

基于视觉和语言的方法通常专注于少量孤立研究的独立任务。但是，作者指出，完成这些任务中的每一项都需要具有视觉基础的语言理解技能，这些技能明显重叠。

为此，本文提出了一种大规模、多任务的训练方案，该模型采用单一模型对来自以下四大类任务的12个数据集进行了训练：视觉问题回答、基于字幕的图像检索，基础引用表达式和多模式验证。使用单个模型有助于将参数数量从大约30亿个参数减少到2.7亿个，同时提高跨任务的性能。

该模型基于ViLBERT，其中每个任务都有一个特定任务的head网络，该head络分支出一个公共的共享干线（即ViLBERT模型）。拥有6个任务head，12个数据集以及超过440万个独立的训练实例，这种规模的多任务训练很难控制。为了克服这个问题，首先将所有模型都在同一数据集上进行预训练。然后使用循环批采样从多任务训练开始循环遍历每个任务，并在发现某些过拟合的情况下尽早停止（early stopping）以停下给定任务，并有可能重新开始训练以避免灾难性遗忘。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Clark-dj 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。