AI-多模态-2021:ALBEF

ALBEF是一种对比学习和动量蒸馏结合的多模态预训练模型,通过图像文本对比学习、掩码语言建模和图像文本匹配任务,实现未标注数据上的高效学习。在多项下游任务如图像文本检索、VQA和NLVR等中取得SOTA性能。
摘要由CSDN通过智能技术生成

■ 简介

大规模的视觉和语言表示学习在许多vision-language任务上取得了很大的进步。现有的方法大多用一个以transformer为基础的多模态编码器来联合建模视觉特征和文本特征。

然而,视觉特征和文本特征在语义空间上并不是对齐的,这就导致多模态编码器很难学习图像-文本的交互。本文提出了一种对比损失,能够在图像和文本表示融合之前先将它们对齐。不同于大多现有的方法,ALBEF方法既不需要对图像数据进行标注,也无需高分辨率的图像。为了更好地对噪声数据进行学习,作者还提出了动量蒸馏,能够从动量模型的伪目标中学习。

ALBEF在许多下游vision-language任务上取得了SOTA性能。在图像文本检索任务上,ALBEF取得了比在数量级更大的数据集上进行训练的CLIP和ALIGN更好的效果。在VQA和NLVR^2上,ALBEF相较于SOTA取得了2.37%和3.84%的改进,同时速度也更快。

■ ALBEF基本框架

ALBEF包含一个图像编码器、一个文本编码器和一个多模态编码器。作者将一个12层的视觉transformer ViT-B/16[1]作为图像编码器,并通过在ImageNet-1k上预训练的权重对图像编码器进行初始化[2]。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值