针对一些专业领域缺乏对齐数据的困境,一些研究减少预训练的匹配对数量、修改CLIP的损失函数,(并应用半监督学习方法)以探索未标记数据中的潜在对齐信息。
Gentle-CLIP的作者认为,最终表示由模态、结构和语义组成,多模态对齐的关键是捕获相同的语义表示。 论文设计了称为语义密度分布(SDD)的损失函数,以更好地集中于海量未配对多模态数据之间的隐式比对信息,可应用于各领域及不同的多模态框架。
通过将半监督(使用标记和未标记的数据来改进模型训练)多模态对齐问题转化为流形匹配问题,
MedCLIP: Contrastive Learning from Unpaired Medical Images and Texthttps://arxiv.org/pdf/2210.10163
MedCLIP由一个视觉编码器和一个文本编码器组成。论文将图像和文本解耦以进行对比学习,使用大量未配对的图像和文本数据集,设计了一种软语义匹配损失,将图像-文本间的医学语义相似性作为监督信号。