论文笔记：Category Contrast for Unsupervised Domain Adaptation in Visual Tasks【无监督域自适应】

wonder_if_

已于 2023-04-17 20:25:26 修改

阅读量398

点赞数

文章标签：人工智能算法计算机视觉

于 2023-04-17 20:18:22 首次发布

本文链接：https://blog.csdn.net/qq_42200733/article/details/130207821

版权

Category Contrast for Unsupervised Domain Adaptation in Visual Tasks

视觉任务中无监督域自适应的类别对比

摘要

无监督表征学习的实例对比（对比学习） $\rightarrow$ 无监督域自适应的类别对比

1. 引言

无监督域自适应：
- DNNs 视觉任务良好，但跨域不匹配。
- 现有方法：
  - adversarial loss 加强目标表示，使其类似源域
  - image translation loss 将源图像转换为类似目标域的风格和外观
  - self-training loss 用自信的伪标记目标样本迭代地重新训练网络
无监督对比学习：
- 从无标签数据中学习判别嵌入
- 实例对比方法可以被认为是字典查找任务，它通过将编码查询 $q$ 与编码键 $k$ 的字典匹配来训练视觉编码器：查询 $q$ 应该与正例 $k_{pos}$ 相似，而与负例 $k_{neg}$ 不同。
- 正例一般为查询样本的随机增强，负例为其他所有样本。
动机：
- category-aware, domian-mixed 且 category-balanced 的UDA字典能够帮助学习有判别性且无偏的表示
工作：
- Categoty Contrast（CaCo）：利用UDA相应的对比损失构建 category-aware 且domain-mixed 的字典
- $\mathcal{L}_{CatNCE}$ ：同一类别的样本被拉近，而不同类别的样本被推远。
分析：
1. 通过 category-aware 字典，它同时最小化类内差异和最大化类间距离
2. 通过 domain-mixed，实现域间和域内同步对齐
3. 通过 category-balanced 极大地缓解了数据平衡问题，允许在学习过程中均匀地计算所有类别的对比损失。
总结：
1. 探索了UDA的实例对比，旨在学习无标记目标域样本的判别表示
2. 提出了类别对比的概念，建立了一个具有 category-aware 和 domain-mixed 的字典。它鼓励学习完全符合UDA目标的类别区分但领域不变的表示法。
3. 实验证明，CaCo具有优越的UDA性能。此外，CaCo补充了先前的UDA方法，并推广到涉及未标记数据的其他学习设置。

2. Related Works

两个主要的相关工作：

2.1 无监督域自适应（Unsupervised domain adaptation，UDA）

目的：利用无监督的数据提高目标域上的性能
已有方法
1. adversarial loss：驱动模型提取类似源的目标域特征表示
2. image translation loss：生成具有目标域类似风格的源域数据
3. self-training loss：用伪标记的目标样本迭代重新训练

2.2 实例对比学习（Instance Contrastive Learning）

目的：利用无监督的数据学习特征表示，其中正样本被拉到锚点附近，负样本被推离
思路：实例对比方法可以被认为是字典查找任务，它通过将编码查询 $q$ 与编码键 $k$ 的字典匹配来训练视觉编码器：查询 $q$ 应该与正例 $k_{pos}$ 相似，而与负例 $k_{neg}$ 不同。
典型字典构建方法：
- memory bank：存储训练期间所有样本的 $k$
- momentum-encoded queue：动量编码队列，在线收集编码作为 $k$ ，先进先出
- end-to-end dictionary：当前 batch 的样本作为 $k$
应用在UDA中的局限性：
1. 语义特征低级。实例对比学习类别先验少，偏向捕获丰富的低级特征，这对于依赖有区分性的高级语义特征的视觉任务(分类、检测和分割)来说是次优的。最近的研究证实了这一问题。
2. 类别碰撞。大多数现有的实例对比学习方法采用了一个超大型/类别未知字典，可能会引入类别碰撞，其中负对共享相同的语义类别，但在特征空间中被不希望地推开。
工作独特性：提出的CaCo引入了一个范畴域混合字典，该字典引入了范畴先验，有效地解决了这两个问题。

3. Method

3.1. 形式化任务

source domain： ${X_s, Y_s\}$
target domain： $X_t$
baseline model $G$ 在源域上训练得到

$\mathcal{L}_{s u p}=l\left(G\left(X_s\right), Y_s\right) \tag{1}$

3.2 实例对比学习预备知识

思想：为字典查找任务训练编码器
损失：
- query： $q$ ，keys： $\{k_0, k_1, \dots, k_N\}$
- InfoNCE损失：最小化它将把q拉到它的正键附近，并将它推离所有其他键(对q来说是负例):

$\mathcal{L}_{\mathrm{InfoNCE}}=\sum_{x_q \in X}-\log \frac{\sum_{i=0}^N \mathbb{1}\left(k_i \in q\right) \exp \left(q \cdot k_i / \tau\right)}{\sum_{i=0}^N \exp \left(q \cdot k_i / \tau\right)} \tag{2}$

3.3 UDA的类别对比

从实例对比学习的角度来研究UDA

概述：
- 模型：
  1. $G(\cdot) = h(f_q(\cdot))$
  2. query encoder： $f_q$ ，
  3. key momentum encoder： $f_k$ ，其中： $\theta_{f_k} = b\theta_{f_k} + (1-b)\theta_{f_q}$
- 训练
  - 源域数据监督训练：由公式 $(1)$ 优化
  - 目标域无监督训练：
    1. 均匀地从源域和目标域采样 $x_k \in X_s, X_t$ ，利用 $f_k$ 得到类别感知字典 $\mathsf{K}$
    2. 从目标域中采样 $x_q \in X_t$ ，利用 $f_q$ 得到 $q_k$ 再利用 $\mathsf{K}$ 进行类别对比学习
分类域混合字典
- category-aware：同类拉紧、异类推开
- domain-mixed：鼓励学习跨域的不变表示
- 定义：
  1. 字典 $\mathsf{K} = \{k^1, k^2, \ldots, k^C\}$ ，其中 $k^c$ 表示其属于第 $c$ 类
  2. 键 $k$ 的预测类别标签 $\hat{y}_k$ 由 $\underset{\hat{y}_k}{\arg \max } \sum_{c=1}^C \hat{y}_k^{(c)} \log p\left(c ; k, \theta_h\right), \text { s.t. } \hat{y}_k \in \Delta^C, \forall k$ ，其中 $p$ 表示分类器 $h$ 对 $k$ 属于第 $c$ 类的概率， $\Delta^C$ 为概率单纯形，保证属于C类的概率和为1.
  3. $\hat{y}=$ $\left(\hat{y}^{(1)}, \hat{y}^{(2)}, \ldots, \hat{y}^{(C)}\right)$ 为预测标签.
  4. 实践中，字典扩充为 $M$ ： $\{k^c_m\}_{1\leq c \leq C, 1\leq m \leq M}$ ，即每个类别的队列有 $\{k^c_1, k^c_2, \dots, k^c_M\}$
  5. 队列遵循先进先出

3.4 类别对比损失

定义：

已有 $\mathsf{K} = \{k^c_m\}_{1\leq c \leq C, 1\leq m \leq M}$ ，目标域数据 $X_t$
$\mathcal{L}_{\mathrm{CatNCE}} = \sum_{x_q \in X_t}-\left(\frac{1}{M} \sum_{m=1}^M \log \frac{\sum_{c=1}^C \exp \left(q \cdot k_m^c / \tau_m^c\right)\left(\hat{y}_q \times \hat{y}_{k_m^c}\right)}{\sum_{c=1}^C \exp \left(q \cdot k_m^c / \tau_m^c\right)}\right)$ ，其中 $q = f_q(x_q)$ ， $\hat{y}_q \times \hat{y}_m^c = \text{1 if refer to the same category else 0}$