论文信息
题目:Unpaired Image-text Matching via Multimodal Aligned Conceptual Knowledge
通过多模态对齐概念知识实现无配对图像-文本匹配
作者:Yan Huang, Yuming Wang, Yunan Zeng, Junshi Huang, Zhenhua Chai, Liang Wang
论文创新点
- 提出无配对图像-文本匹配场景,无需配对数据进行监督学习。
- 构建多模态对齐概念知识,通过原型区域表示实现跨模态对齐。
- 提出双向相似度池化和知识微调方法,显著提升零样本和跨数据集匹配性能。
摘要
近年来,多模态预训练模型在图像-文本匹配任务中的准确性得到了显著提升,这些模型都使用了数百万或数十亿对配对的图像和文本来进行监督学习。与这些方法不同,人类大脑能够利用存储的多模态知识很好地匹配图像和文本。受此启发,本文研究了一种新的场景ÿ