深度子领域迁移网络（DSAN）阅读笔记

最新推荐文章于 2024-05-31 20:34:28 发布

JuJuc09

最新推荐文章于 2024-05-31 20:34:28 发布

阅读量2.6k

点赞数 6

文章标签：笔记 python 计算机视觉机器学习深度学习神经网络迁移学习

本文链接：https://blog.csdn.net/JuJuc09/article/details/132921475

版权

本文介绍了一种新的深度学习方法DSAN，针对图像分类中的子领域自适应问题，通过局部最大均值差异（LMMD）对源域和目标域的子领域分布进行对齐，避免了全局对齐可能带来的信息混淆。DSAN无需复杂的对抗性训练，有效捕捉细粒度类别信息。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

DSAN

深度子领域迁移网络

Deep Subdomain Adaptation Network for Image Classification

Code

总结：将源域/目标域的各子领域（根据标签划分）分别进行对齐，而非全局对齐。

以往大多数深度域自适应方法都进行全局对齐（不考虑任何细粒度的信息，比如标签），会混淆源域/目标域的数据，丢失每个类别的细粒度信息。

本文提出了一种深度子领域自适应网络（DSAN），基于局部最大均值差异（LMMD），通过对齐源域/目标域上域特定层（domain-specific layer）激活的相关子领域分布来学习迁移网络。（不需要收敛缓慢的对抗性训练）
在这里插入图片描述

Related Work

Domain Adaptation
Maximum Mean Discrepancy(MMD)
TCA、DDC、DAN、[27]
扩展：条件MMD（JDA）、联合MMD（JAN）、加权MMD[32]、CMMD（JDA、[23]、[33]；LMMD的一个特例）
Subdomain Adaptation
子领域自适应，也叫做语义对齐（semantic alignment）或匹配条件概率分布（matching conditional distribution，对齐全局特征实际上是匹配边缘概率分布）。
以下方法均采用对抗损失，复杂，有多个损失，且收敛缓慢。

NIPS-2018 Conditional adversarial domain adaptation(CDAN)：根据分类器预测中传递的判别信息对对抗自适应模型进行约束。

AAAI-2018 Multi-adversarial domain adaptation(MADA)：捕获多模式结构，从而基于多域鉴别器实现不同数据分布的细粒度对齐。

NIPS-2018 Co-regularized alignment for unsupervised domain adaptation(Co-DA)：构建多个不同的特征空间，在每个特征空间中单独对齐源分布和目标分布，同时鼓励对齐在未标记的目标样本上的类别预测方面彼此一致。

ICML-2018 Learning semantic representations for unsupervised domain adaptation(MSTN)：通过对齐有标记的源质心和伪标记的目标质心来学习未标记目标样本的语义表示。

Method

在这里插入图片描述

源域 $\mathcal{D}_s=\{(\mathbf{x}_i^s,\mathbf{y}_i^s)\}_{i=1}^{n_s}$ ，其中 $\mathbf{y}_i^s\in\R^C$ 是 $\mathbf{x}_i^s$ 的标签（one-hot编码）， $C$ 是类别数量。
目标域 $\mathcal{D}_t=\{(\mathbf{x}_j^t\}_{j=1}^{n_t}$ 。
源域和目标域采样自不同数据分布 $p$ 和 $q$ （ $p\ne q$ ）。

Subdomain Adaptation 子领域自适应

以往深度迁移学习方法：使用具有全局域自适应损失 $\hat{d}(p,q)$ 的自适应层来学习域不变特征。
在这里插入图片描述
根据类别，将 $\mathcal{D}_s$ 和 $\mathcal{D}_t$ 划分为 $C$ 个子领域 $\mathcal{D}^{(c)}_s$ 和 $\mathcal{D}^{(c)}_t$ ，其中类标签 $c\in\{1,2,\dots,C\}$ ， $\mathcal{D}^{(c)}_s$ 和 $\mathcal{D}^{(c)}_t$ 的分布为 $p^{(c)}$ 和 $q^{(c)}$ （类条件概率分布）。
结合分类损失和子领域自适应损失，子领域自适应方法的损失表述为
在这里插入图片描述

Local Maximum Mean Discrepancy(LMMD) 局部MMD

在这里插入图片描述
假设每个样本属于类别 $c$ 的权重为 $w^c$ ，给出(5)的无偏估计：

$w^{sc}_i$ 和 $w^{tc}_j$ 分别表示 $\mathbf{x}_i^s$ 和 $\mathbf{x}_j^t$ 类别 $c$ 的权重。
$\sum_{i=1}^{n_s}w^{sc}_i=\sum_{j=1}^{n_t}w^{tc}_j=1$ （均值）
$\sum_{\mathbf{x}_i\in\mathcal{D}}w^{c}_i \phi(\mathbf{x}_i)$ 是类别 $c$ 的加权和。

样本 $\mathbf{x}_i$ 的权重 $w^{c}_i$ ：
在这里插入图片描述

$y_{ic}$ 是预测标签向量（one-hot编码） $\mathbf{y}_i$ 的第 $c$ 个元素。
对于源域样本，使用真实标签 $\mathbf{y}_i^s$ ；对于无标签的目标域样本，使用伪标签 $\hat{\mathbf{y}}_i=f(\mathbf{x}_i)$ 。

深度网络在第 $l$ 层（ $l\in L=\{1,2,\dots,|L|\}$ ）生成激活 $\{\mathbf{z}^{sl}_i\}^{n_s}_{i=1}$ 和 $\{\mathbf{z}^{tl}_j\}^{n_t}_{j=1}$ 。另外，由于不能直接计算 $\phi(\cdot)$ ，将(6)写成
在这里插入图片描述