VLP(Vision-Language Pre-training)的发展和评估(1)

目录

VLP发展的三个阶段

第一阶段:小规模特定任务方法设计 (2014/11-2019/8)

第二阶段:中等规模预训练 (2019/8-2021/8)

第三阶段:大规模预训练 (2021/8-现在)

什么是好的VLP模型?


VLP发展的三个阶段

第一阶段:小规模特定任务方法设计 (2014/11-2019/8)

        已经为图像字幕和VQA开发了许多特定任务的方法。例如,重要的工作线是基于预先提取的视觉特征来设计各种注意力机制,例如ResNet、Faster RCNN。预先训练的词嵌入,例如GLoVe、word2vec和LSTM。这些注意力方法的设计已被用来捕捉多模态对齐,执行对象关系推理,并模拟多步推理。

第二阶段:中等规模预训练 (2019/8-2021/8)

         受BERT的巨大成功的启发。在NLP中,VL领域已经逐渐转向使用基于Transformer的多模态融合模型,这些模型在中等规模的设置中进行了预训练,例如,使用多达4M图像的图像-文本数据集(总共大约10M图像-文本对),模型大小从110 M(BERT-基础)到340 M(BERT-大)。中等规模VLP模型的典型实例包括UNITER和OSCAR

第三阶段:大规模预训练 (2021/8-现在)

        随着CLIP的出现和ALIGN提出了一种基于噪声的图像-文本双编码器训练方法,大规模VLP显示出巨大的应用前景,并成为VLP研究的基础。例如,SimVLM,Florence,Flamingo,CoCa,GIT。VLP的高计算成本可以通过使预训练模型适应广泛的下游任务来分摊。用于预训练的image-text对的数量已经增加到超过12B,模型大小增长到5 B,如在GIT中。

什么是好的VLP模型?

1. 在广泛的下游任务上实现良好的性能。

2.以最小的成本适应新任务。

 参考:Vision-Language Pre-training: Basics, Recent Advances, and Future Trends

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值