TPAMI 2024 | 通过多模态对齐概念知识实现无配对图像-文本匹配

论文信息

题目:Unpaired Image-text Matching via Multimodal Aligned Conceptual Knowledge
通过多模态对齐概念知识实现无配对图像-文本匹配
作者:Yan Huang, Yuming Wang, Yunan Zeng, Junshi Huang, Zhenhua Chai, Liang Wang

论文创新点

  1. 提出无配对图像-文本匹配场景,无需配对数据进行监督学习。
  2. 构建多模态对齐概念知识,通过原型区域表示实现跨模态对齐。
  3. 提出双向相似度池化和知识微调方法,显著提升零样本和跨数据集匹配性能。

摘要

近年来,多模态预训练模型在图像-文本匹配任务中的准确性得到了显著提升,这些模型都使用了数百万或数十亿对配对的图像和文本来进行监督学习。与这些方法不同,人类大脑能够利用存储的多模态知识很好地匹配图像和文本。受此启发,本文研究了一种新的场景ÿ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小白学视觉

您的赞赏是我们坚持下去的动力~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值