《Vision-Language Pre-Training with Triple Contrastive Learning》/《具有三重对比学习的视觉语言预训练》

一、摘要

视觉语言表示学习很大程度上受益于通过对比损失(例如,InfoNCE损失)的图像-文本对齐。这种对齐策略能够最大化图像与其匹配文本之间的互信息(MI)。然而,简单地执行跨模态对齐(CMA)不能确保来自相同模态的相似输入保持接近,这可能会导致表示形式的退化。当训练前的数据有噪声时,这个问题会变得更糟。在本文中,我们提出了三重对比学习(TCL)的视觉语言预训练,利用跨模态和模态内的自监督。除了跨模态对齐(CMA),三重对比学习(TCL)还引入了一个模态内对比目标,在表征学习中提供互补的好处。为了利用来自图像和文本输入的局部信息和结构信息,TCL进一步最大化了图像/文本的局部区域与其全局摘要之间的平均MI。据我们所知,我们的工作是第一个考虑局部结构信息的多模态表示学习。实验评价表明,我们的方法具有竞争力,并在各种常见的下游视觉语言任务如图像-文本检索和视觉问题回答上取得了新的水平。

二、

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值