（CoRL2020）DIRL: Domain-Invariant Representation Learning Approach for Sim-to-Real Transfer 论文笔记

最新推荐文章于 2024-08-16 18:09:15 发布

SkyrimT

最新推荐文章于 2024-08-16 18:09:15 发布

阅读量1.2k

点赞数

分类专栏： Domain Adaptation(CV)

本文链接：https://blog.csdn.net/weixin_43141836/article/details/110812388

版权

Domain Adaptation(CV) 专栏收录该内容

8 篇文章 1 订阅

订阅专栏

（CoRL2020）DIRL: Domain-Invariant Representation Learning Approach for Sim-to-Real Transfer 论文笔记

paper
code

本文针对的问题是无监督领域自适应和半监督领域自适应问题。

与传统的对抗领域自适应方法对比，其创新性在于

在对齐边缘概率分布的同时也对齐条件概率分布（虽然感觉现在大家都在对齐条件概率分布，应该不能算新颖了）
使用triplet distribution loss来增大类间方差同时缩小雷内方差

本文上来先阐述对齐条件分布的好处（我又又又被数学杀了，似懂非懂先跳过了）。之后阐述方法和损失函数。

模型结构

在这里插入图片描述

和传统的对抗神经网络区别不大，源域数据和目标域数据经过同一个特征提取器 $g$ ，得到特征空间的特征 $z$ 。 $z$ 输入给域判别器 $D$ 判断特征来自源域还是目标域。

本文加入了一个类别判别器 $C$ 用来判断在某个类别下，该样本是属于源域还是目标域，这个目的是对齐条件概率分布。

损失函数

首先是域判别损失，用于优化 $D$ 的损失函数

$min_D \ L_{ma}(g(x_s,x_t),D(x_s,x_t))=-E_{x_s\sim X_s}[log(D(g(x_s)))]-E_{x_t\sim X_t}[log(1-D(g(x_t)))]$

用于优化 $g$ 的损失函数

$min_g \ L_{ma}(g(x_t),D(x_s,x_t))=-E_{x_t \sim X_t[log(D(g(x_t)))]}$

分类损失（源域的分类损失+目标域的分类损失）

$L_{ca\_sc}(f\circ g(x_s,y_s,x_t,y_t))=E_{x_s,y_s \sim (X_s,Y_s)}[-y_slog(f(g(x_s)))]+E_{x_t,y_t \sim (X_t,Y_t)}[-y_tlog(f(g(x_t)))]$

普通的交叉熵损失

对于类别判别器，与与判别器的优化方法类似，不同的就是对于每个类的样本都要计算损失函数

用于优化类别判别器 $C$ 的损失函数

$min_C \ L_{ca_k}(g(x_s^k,x_t^k),C(x_s^k,x_t^k))=-E_{x_s^k\sim X_s}[log(C(g(x_s^k)))]-E_{x_t^k\sim X_t}[log(1-C(g(x_t^k)))]$

此处的 $k$ 表示第 $k$ 类样本

用于优化特征提取器 $g$ 的损失函数

$min_g \ L_{ca_k}(g(x_s^k,x_t^k),C(x_s^k,x_t^k))=-E_{x_t^k\sim X_t}[log(C(g(x_t^k)))]$

类别判别器作用是对齐源域和目标域的条件概率分布

Triplet Distribution Loss:

传统的Triplet Loss的训练过程是

先从训练集中选择一个样本，命名为Anchor，简记为 $a$

之后选择一个和该类样本同类的样本，命名为Positive，简记为 $p$

在选择一个和该类样本不同类的样本，命名为Negative，简记为 $n$

目的是减小Anchor和Positive 的距离，同时增大Anchor和Negative的距离

损失函数triplet loss写成

$L = m a x (d (a, p) - d (a, n) + m a r g i n, 0)$

此处的 $d$ 使用欧氏距离度量样本在特征空间中的距离

这篇文章中，使用类似triplet loss的方法，不同点在于使用分布来计算损失函数

首先取出一个mini-batch的数据，随机从中取一个样本，为Anchor，记作 $x_a$

与 $x_a$ 同类的样本，为Positive，记作 $x_p$

与 $x_a$ 不同类的样本，为Negative，记作 $x_n$

这样做 $M$ 次，得到最终的损失函数

$L_{tl}=\sum_{a=1}^M[\frac{1}{M_p-1}\sum\limits_{p=1 \\ p \neq a}^{M_p}KL( \ N(\bar{g}(x_a),\sigma^2)\ ||\ N(\bar{g}(x_p),\sigma^2)\ )-\frac{1}{M_n}\sum\limits_{n=1}^{M_n}KL( \ N(\bar{g}(x_a),\sigma^2)\ ||\ N(\bar{g}(x_n),\sigma^2)\ )+\alpha_{tl}]_+$

上述公式中， $M$ 代表我们随机选了 $M$ 次Anchor

$M_p$ 和 $M_n$ 分别代表与 $x_a$ 类别相同的样本数目和类别不同的样本数目

$\bar{g}(x)$ 表示对 $g (x)$ 的输出归一化后的结果

$K L$ 为 $K L$ 散度

$\alpha_{tl}$ 和 $\sigma$ 为超参数

下标 $+$ 为 $H i n g e L o s s$ ，作用与Triplet Loss中和 $0$ 比较取较大类似

$N(\bar{g}(x_a),\sigma^2)$ 为构造的一个集合（看做一个分布，用于计算 $K L$ 散度），其余两个 $N(\bar{g}(x_n),\sigma^2)$ 和 $N(\bar{g}(x_p),\sigma^2)$ 同理，集合为

$N(\bar{g}(x_a),\sigma^2) =\lbrace N(\bar{g}(x_i);\bar{g}(x_a),\sigma^2)=\frac{exp(-\frac{1}{\sigma^2}||\bar{g}(x_i)-\bar{g}(x_a)||^2_2)}{\sum_{j=1}^Kexp(-\frac{1}{\sigma^2}||\bar{g}(x_j)-\bar{g}(x_a)||^2_2)} \rbrace_{i=1}^K$