论文探讨了视觉语言模型(VLMs)及其在无监督域适应(UDA)中的应用,并引入了一种名为提示分布对齐(Prompt-based Distribution Alignment,PDA)的方法,该方法采用双分支训练策略,包括基础分支和对齐分支。基础分支专注于将类别相关的表示整合到提示中,确保不同类别的区分性;而为了进一步缩小领域差异,对齐分支则构建了源域和目标域的特征库,并提出了图像引导的特征调优(IFT),使输入关注特征库,从而有效地将自我增强和跨域特征整合进模型中。这种方法不仅提高了模型的区分能力,还缓解了源域和目标域之间的分布偏移。实验结果证明了PDA方法的有效性,并且在无监督域适应任务上达到了新的最优性能。
1 提示分布对齐方法
尽管大规模预训练的视觉-语言模型(VLMs)在各种下游任务中取得了前所未有的成功,但在真实世界中的无监督域适应(UDA)问题尚未得到充分研究。直接使用这些模型面临的挑战在于提示工程,它要求对齐源域和目标域的知识,这对于UDA的表现至关重要。
如下为两分支提示调优范式:
-
(1)基础分支:旨在将类别相关的表示融入提示中,确保不同类别的区分度。
-
(2)对齐分支:为源域和目标域构建特征库,引入图像引导的特征调优(IFT),使输入能够关注到特征库,从而有效地将自我增强和跨域特征整合进模型中。
2 结语
文章介绍了一种名为Prompt-based Distribution Alignment (PDA)的方法,通过双分支提示调整范式在无监督域适应中对视觉语言模型进行分布对齐,以提高模型的判别能力和减轻源域与目标域之间的分布差距。
论文题目: Prompt-based Distribution Alignment for Unsupervised Domain Adaptation
论文链接: https://arxiv.org/abs/2312.09553
PS: 欢迎大家扫码关注公众号_,我们一起在AI的世界中探索前行,期待共同进步!