【域适应+clip十七】Split to Merge: Unifying Separated Modalities for Unsupervised Domain Adaptation

1.motivation

大型视觉语言模型(VLMs)在无监督域自适应任务中表现出良好的zero-shot学习性能。然而,大多数针对vlm的迁移方法要么关注语言分支,要么关注视觉分支,而忽略了这两种模式之间微妙的相互作用。在这项工作中,作者引入了一个用于无监督域自适应的统一模态分离(UniMoS)框架。利用模态间隙研究的见解,我们制作了一个灵活的模态分离网络,将CLIP的特征明显地分解为语言相关和视觉相关的组件。作者提出的模态集成训练(MET)方法促进了模态无关信息的交换,同时保持了模态特定的细微差别。使用模态鉴别器跨域对齐特征。

2. introduce

领域自适应的直接方法包括同时微调视觉分支和制作文本提示,这可能会干扰预训练CLIP中的图像-文本表示对,并且是计算密集型的。作为一种更有效的替代方案,本文明确地将clip提取的视觉特征分解为两个互补的部分。第一个部分保留了CLIP中固有的与语言相关的语义知识,而第二个部分侧重于区分细微视觉类别的视觉特定属性。

作者设计了一套具有双分支的模态分离网络,将clip编码的视觉特征投影到不同的语言相关组件(LAC)和视觉相关组件(VAC)中。采用正交正则化来确保这些分支产生离散的、解纠缠的表示。每个组件都基于其固有的模态优势进行优化。

对于LAC分支,利用目标数据的知识蒸馏来利用原始预训练的CLIP模型中丰富的语义内容。此外,我们实现了一种消除偏差的方法来减轻CLIP的zero-shot结果中的数据集偏差。

对于VAC分支,利用视觉特征空间内的局部性结构生成视觉伪标签,用于目标数据的监督学习。然后,引入了一种新的模态集成训练(MET)策略,协同合并两种模态的输出。权重生成器动态地组装这些预测,由目标数据上的VAC伪标签和源数据上的实际标签监督。

重要的是,文本模态输出在MET过程中保持隔离,以保持独立训练并保持预训练的语义。

此外,利用模态鉴别器对LAC和VAC进行跨域对齐,实现无监督域自适应。在源数据上进行训练以区分LAC和VAC,该鉴别器被冻结在目标域上,直接更新分离网络以产生域不变的LAC和VAC。这种方法确保了跨域的一致模态分离,促进了两种模态的同时适应。

贡献:

1. 研究了视觉语言模型(VLMs)在无监督领域自适应中的模态间隙现象,揭示了自适应单一模态的局限性;

2. 引入了一个新的框架,统一模态分离(UniMoS),它与模态集成训练(MET)方法相结合,促进了有效的多模态适应;

3. 方法

3.1. 问题陈述

在本研究中,上标是区分领域的,没有上标的符号在两个领域都适用。CLIP具有视觉编码器g_{vis}和文本编码器g_{txt}。图像输入x的视觉特征记为f_{v}=g_{vis}\left ( x \right )。使用来自[17]的zero-shot推理策略,将简单提示\left \{ \left ( t_{i} \right ) \right \}_{i=1}^{K}构造为 a [DOMAIN] photo of a [CLASS],其中K表示类的数量,[DOMAIN]表示领域,[CLASS]表示类的名称。然后导出文本特征为u_{i}=g_{txt}\left ( t_{i} \right )u_{i}f_{v}都是d_{v}维的特征。分类基于f_{v}u_{i}之间的最高余弦相

  • 14
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值