CVPR (《28篇论文、6 大主题带你一览 CVPR 2020 研究趋势》学习笔记六视觉与语言)

原文链接:https://mp.weixin.qq.com/s/MkEwjHVC9M1JtdzZZdmeFw

视觉与语言

12合1:多任务视觉和语言表示学习

论文地址:https://arxiv.org/abs/1912.02315

基于视觉和语言的方法通常专注于少量孤立研究的独立任务。但是,作者指出,完成这些任务中的每一项都需要具有视觉基础的语言理解技能,这些技能明显重叠。

为此,本文提出了一种大规模、多任务的训练方案,该模型采用单一模型对来自以下四大类任务的12个数据集进行了训练:视觉问题回答、基于字幕的图像检索,基础引用表达式和多模式验证。使用单个模型有助于将参数数量从大约30亿个参数减少到2.7亿个,同时提高跨任务的性能。

该模型基于ViLBERT,其中每个任务都有一个特定任务的head网络,该head络分支出一个公共的共享干线(即ViLBERT模型)。拥有6个任务head,12个数据集以及超过440万个独立的训练实例,这种规模的多任务训练很难控制。为了克服这个问题,首先将所有模型都在同一数据集上进行预训练。然后使用循环批采样从多任务训练开始循环遍历每个任务,并在发现某些过拟合的情况下尽早停止(early stopping)以停下给定任务,并有可能重新开始训练以避免灾难性遗忘。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Clark-dj

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值