M2RD for Domain Adaptation

最新推荐文章于 2024-12-01 17:07:16 发布

Leepupupu

最新推荐文章于 2024-12-01 17:07:16 发布

阅读量802

点赞数

分类专栏：跨域分类文献

本文链接：https://blog.csdn.net/weixin_42279314/article/details/112168584

版权

跨域分类文献专栏收录该内容

6 篇文章

订阅专栏

M2RD for Domain Adaptation

Introduction
Related Works
Proposed Methods：M $^2$ RD
最终结果
参考文献

M2RD 即A Multi-Domain and Multi-Modal Representation Disentangler，该方法是由Yang Fu-En等人于2019年提出，M $^2$ RD是一个统一的网络，其目标是学习到域不变特征和域相关特征；其次，通过使用先进对抗网络和解纠缠方法，使模型能够基于多个模型实现跨域的连续图像操作。

Introduction

深度学习在计算机视觉和机器学习中展现出很好的发展前景，目前一些研究者将其用于视觉分析与合成，如风格转换、图至图的转化、跨域视觉分类等。而实现上述任务的主要方法分为两者，其一是确定性映射(Deterministic mapping)，另一种是将所需信息嵌入到潜在的特征空间。而该文章使用的是特征解纠缠方法，其能够观察并操作感兴趣的特定特征属性。
数据域之间的自适应或转换需要展示出多模态多样性，其概念是：一个实例输入可对应多个可能的同属性输出，如一张图片的风格可以是相片或者是素描；而要实现该目标，即使是对抗神经网络(GAN)也存在问题。为实现多模态多样性，有研究者利用解纠缠的特征实现多模态，如MUNIT和DRIT，这两个方法是通过将潜在的特征分解为不想关联的特征，以这些不相关特征来描述内容与风格信息，但这两个方法由于其网络结构的设计，无法实现跨域处理。
于是作者根据上述方法所存在的问题，提出了一个M $^2$ RD网络实现跨域图像合成和分类，其网络是一个统一的框架。网络框架如下图所示，其可分为内容提取和域处理两个部分。
在这里插入图片描述本文的贡献有以下几点：

将潜在的图像信息分解为不相关的特征，以表示域不变信息和特定信息
将对抗学习、生成模块、特征解纠缠三者相结合
所获得域不变特征可实现无监督域自适应

Related Works

Representation Disentanglement

Chen等提出的InfoGAN，最大化潜在特征空间与生成图片之间的交互信息，以实现特征解纠缠。
Higgins等提出的 $\beta$ -VAE，通过在VAE中加入一个调节超参数，实现对潜在信道容量和独立性约束的平衡。
Tulyakov等提出的MoCoGAN，该方法实现了对生成网络生成的视频的分解。

上述方法存在的不足之处：由于其无法获得解纠缠背后明确的语义信息，因此无法直接操纵潜在的因素。

Odena等提出增强GANs，其原理是在GANs的基础上添加一个辅助的分类器
Peng等人应用重构解耦和自监督来保证潜在因素的完全解耦。
Tian等人利用GAN和循环一致性(Cycle-Consistency)对多视角图像进行特征解耦。

即使能够实现特征解耦，但是上述的方法均只是在单个域中进行操作，并未在多个域中进行操作。

Image-to-Image Translation

Isola等通过利用图像数据对来学习对抗网络。
Taigman等提出Domain Transfer Network
其次还有CoGAN、UNIT等

以上方法能实现风格转换，但是却无法实现多模态输出或者会出现模型崩溃的问题。

为实现多模态输出，Zhu等人注意到通过输入一对(a pair)图像以获得潜在空间与输出空间之间的双向映射关系；但是在一些情况下，我们是无法得到数据对。

Cross-Domain Image Manipulation

为充分利用图像分析的结果，研究者需能够对图像中感兴趣的属性进行操作。为此，研究者提出了StarGAN、AttGAN、UFDN等，这些网络均能对人脸图像进行操作。

Unsupervised Domain Adaptation

无监督域自适应是指在不使用目标域的标签的情况下，实现对目标域图片数据的分类。如GAKT、DANN、CycleGAN等。
注：论文文献8、11-13、15，这几篇论文是跨域分类的文献，值得继续看

Proposed Methods：M $^2$ RD

M $^2$ RD网络的架构如下图所示，其由两部分组成：特征解缠器和图像处理，其中 $E_d$ 、 $E_c$ 、 $D_c$ 完成对特征解缠，并将特征分为两类： $z_d$ 与域相关的， $z_c$ 与内容相关，即域不变特征； $G$ 与 $E_c$ 一起构成对图像处理的部分，其中 $G$ 的输入为 $z=[z_i^c,\bar z^d,l_j]$ ， $z_c$ 是为了保证生成器生成的图片与输入具有内容一致性； $D_{dom}$ 是对生成器所生成图片的域进行分辨，最终达到使生成器生成的图片的域与 $l_i$ 一致。
在这里插入图片描述为实现上述所提出的贡献，作者定义了以下10种损失，这10种损失分别对应不同的目标，其表达式如下：

$L^{D_c}_{adv}$ ：根据不变特征 $z^c$ 正确预测域码(domain code)
$L^{D_c}_{adv}=\mathbb{E}[log(P(\hat l=l_i|E_c(x_i)))]$
$L^{E_c}_{adv}$ ： $E^c$ 的目标是从输入数据中获取域不变特征，因此最大化不变特征的交叉熵即可，
$L^{E_c}_{adv}=-L^{D_c}_{adv}=-\mathbb{E}[log(P(\hat l=l_i|E_c(x_i)))]$
$L_{KL}$ ：为获得联合且连续的特征表示，设计出使域相关特征 $z^d$ 符合一个高斯分布，KL为Kullback-Leibler散度，
$L_{KL}=\mathbb{E}[KL(E_d(x_i))||N(0,I)]$
$L_{cla}$ :为实现跨域分类，需加入跨域分类器，下式即为衡量跨域分类准确性的损失项，
$L_{cla}=-\sum_{k=1}^{N_{src}} y^{src}_k.log \tilde{y}_k^{src}$
$L_{rec}$ ：为使生成器生成的最终图像与输入相似，需加入下面这一项损失项来对输入图像进行重构，即求输入图像与生成图像之间的1范数

$L_{rec}=||x_i-\hat x_i||_1$

$L_{rec}$ ：为保证最终图像与输入图像的内容一致性，即不变特征一致，需加入下面这些损失项，

$L_{rec}=||E_c(x_i)-E_c(\tilde x_i)||_2$

$L_{sty}$ ：利用下面这个回归损失对域相关特征进行重构，

$L_{sty}=||E_d(G([z_i^c,\bar z^d,l_j]))-\bar z^d||_2$

以下三项损失是为了使输出图像满足指定的域码 $l_j$ ,

$L^{D_dom}_{adv}=\mathbb{E}[log(D_{dom}(\tilde x_i))]+\mathbb{E}[log(1-D_{dom}(x_i))]$

$L^{D_dom}_{aux}=\mathbb{E}[log(P(\bar l=l_j|\tilde x_i))]+\mathbb{E}[log(P(\bar l=l_j|x_i))]$

$L^{G}_{adv}=-\mathbb{E}[-log(D_{dom}(\tilde x_i))]$

最终总的损失是将上面10项损失加在一起，并对每一项乘以一个权重，权重的选择需要具体而定，因为不同的损失的数值可能是不一样的数量级。

最终结果

在这里插入图片描述

需要指出的是该方法最终的跨域识别率很高，但是其在训练过程中对域进行了标定，这就说明当遇到一个未知的域，是否最终能够提取到域不变特征是一个值得思考的问题。

参考文献

Yang, F. E., et al. (2020). “A Multi-Domain and Multi-Modal Representation Disentangler for Cross-Domain Image Manipulation and Classification.” Ieee Transactions on Image Processing 29: 2795-2807.