【论文阅读】JDA（joint distribution adaptation)/2013初稿

本文链接：https://blog.csdn.net/petSym/article/details/102874524

JDA（joint distribution adaptation)/2013

文章目录

**JDA（joint distribution adaptation)/2013**

Abstract

在domain adaptation应用在CV领域时，目前大多先验（prior）方法都没有同时减少域之间边缘分布和条件分布的difference。本文提出JDA，通过principled 降维操作，联合地（jointly）适应marginal distribution和conditional distribution，并且构建新的特征表达方法。实验证明JDA在4类cross-domain图像分类问题上效果优于最新的方法。

1. Introduction

motivation

cv领域，标签数据常常很稀疏sparse，所以希望通过related source domain的标签数据训练得到的分类器在target domain上复用。

cross- domain problem

source和target数据采样自不同的（边缘）概率分布，故主要的问题就是reduce the distribution difference between domains。

recent works

找到能降低分布差异、同时保留input数据的关键性质的shared feature representation

[15]Domain adaptation via transfer component analysis（TCA)
[18]Domain adaptation of conditional probability models via feature subsetting
[21]Knowledge transfer with llow-quality data: A feature extraction issue

re-weight source data in order to minimize the distribution difference and then learn a classifier on the re-weighted source data

分布差异的度量方法

只基于marginal，或者只基于conditional分布
同时匹配marginal和conditional
已有部分工作：[26],[18],[23]
问题：需要target有部分labeled data

本文的问题设置

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BfvZYkcd-1572687283236)(C:%5CUsers%5Cjingge%5CPictures%5Cimage_save%5C%E6%8D%95%E8%8E%B7.PNG)]

$P(X_S)\not=P(X_T)$
也就是图中不区分类别（红色和蓝色），两个图中的点的分布不一样（聚集、离散密集程度不同，分布方向也不同）
$P(Y_S|X_S)\not=P(Y_T|X_T)$
即给定一堆input数据，标签的分布，也就是正负样本的分布不同，图中来看，就是红色、蓝色标签样本的分布不同，分割平面（线）也不同。
target域没有任何labeled数据

本文的工作

同时adapt边缘和条件分布
拓展nonparametric MMD（maximum mean discrepancy)来度量边缘和条件分布，并整合到PCA上来构建有效、鲁邦的特征表达。

实验

数据集（4个）：
digit (USPS, MNIST)
face (PIE)
object (COIL20, Office+Caltech [20])
improvement：+7.57%

2. Related work

根据survey[16]，有两类transfer learning方法：

(1) instance reweighting：
给source domain的一些标签数据重新设置权重，然后在target domain中复用。
(2) feature extraction：
找到减小source和target差异的好的特征表达，同时减小分类回归误差。

本文方法是第二类，可以细分为以下两个子类：
- ① property preservation：
  
  通过保留重要的数据特性（如统计特性、几何结构），在domain之间共享隐空间的factors。
- ② distribution adaptation：
  最小化边缘分布，或者条件分布，或者同时最小化两个，的距离。未来实现条件分布的匹配，这些方法通常需要标记的target数据，或者多个source域。

3. Joint distribution adaptation

3.1 问题定义

3.1.1符号定义

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-S3kIMMA4-1572687283237)(C:%5CUsers%5Cjingge%5CPictures%5Cimage_save%5C%E6%8D%95%E8%8E%B72.PNG)]

domain

域 $\mathcal{D}$ 包含 $m$ 维特征空间 $\mathcal{X}$ ，和在其上分布的边缘概率分布 $P(\rm{x})$ ，即:

$\mathcal{D}=\{\mathcal{X},P(\mathbf{x})\}$ ，其中 $\bold{x}\in{\mathcal{X}}$
task

Given domain $\mathcal{D}$ , a task $\mathcal{T}$ is composed of a $C$ -cardinality label set $\mathcal{Y}$ ，i.e., $\mathcal{T}=\{\mathcal{Y},f(\bold{x})\}$ , where $y\in{\mathcal{Y}}$ ，and a classifier $f(\bold{x})=Q(y|\bold{x})$ can be interpreted as the conditional probability distribution，即已知数据的分类器也可以看成是一种条件概率分布。

3.1.2 问题定义

problem 1(joint distribution adaptation)

Given labeled source domain $\mathcal{D}_s=\{(\bold{x}_1,y_1),...,(\bold{x}_{n_s},y_{n_s})\}$ ，

unlabeled target domain $\mathcal{D}_t=\{\bold{x}_{n_s+1},...,\bold{x}_{{n_s}+n_t}\}$ under
the assumptions that $\mathcal{X}_s=\mathcal{X}_t$ ，即数据特征空间是相同的，

$\mathcal{Y}_s=\mathcal{Y}_t$ ，即标签空间或者说标签是类别是相同的，

再就是迁移学习的数据分布条件，边缘分布 $P_s(\bold{x}_s)\not=P_t(\bold{x}_t)$ 不等，

条件概率分布 $Q_s(y_s|\bold{x}_s))\not=Q_t(y_t|\bold{x}_t))$ 不等，

我们迁移学习的目标：是学习一种特征表达，使得①边缘分布 $P_s(\bold{x}_s)$ 和 $P_t(\bold{x}_t)$ 的分布差异（distribution difference）② 条件概率分布 $Q_s(y_s|\bold{x}_s))$ 和 $Q_t(y_t|\bold{x}_t))$ 的分布差异最小化。

3.2 proposed approach

本文方法是，通过一个特征变换（adaptation transformation)矩阵 $T$ ，使得变换后的特征 $\bold{x}$ ，加上标签 $y$ 的联合期望，在两个域之间是match的，从而我们说这时两个域是相似的，任务也是相似的，从而可以进行迁移学习。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6NrQXfI3-1572687283238)(C:%5CUsers%5Cjingge%5CPictures%5Cimage_save%5C3.PNG)]

由于target域没有标签数据，所以 $Q_t(y_t|\bold{x}_t)$ 不能直接估计。最好的近似是假设条件分布是相同的，即 $Q_t(y_t|\bold{x}_t)=Q_s(y_s|\bold{x}_s)$ ，这可以通过将在标签source数据上训练的分类器 $f$ ，应用在未标签target数据上实现。为了获得更高精度的估计 $Q_t$ ，我们提出了一种迭代的pseudo label refinement伪标签细化的策略来找到变换 $T$ 和分类器 $f$ 。

3.2.1 feature transformation特征变换

我们选择PCA主成分分析（Principle Component Analysis）来进行数据的降维。

输入数据input data matrix： $\bold{X}=[\bold{x}_1,...,\bold{x}_n]\in\Bbb{R}^{m\times n}$ ，注意包含的是所有source和target的数据；
中心矩阵centering matrix of input: $\bold{H} = \bold{I} - \frac{1}{n}\bold{1}$ ，也是针对source和target所有数据一起的和，其中 $n= n_s+n_t$ ， $\bold{I},\bold{1}\in\Bbb{R}^{n\times n}$ 。
协方差矩阵covariance matrix：可以写成 $\bold{XHX^T}$ 。推导见中心矩阵。

PCA的目标是寻找一个正交变换矩阵（orthogonal transformation matrix） $\bold{A}\in\Bbb{R}^{m\times k}$ ，让映射后的数据$\in\Bbb{R}^{k \times n} $方差最大，即：

$\max \limits_{\bold{A}^T\bold{A}=\bold{I}}\bold{tr}(\bold{A^TXHX^TA})$

协方差是对两个随机变量联合分布线性相关程度的一种度量。两个随机变量越线性相关，协方差越大，完全线性无关，协方差为0。

协方差：表示两个变量的线性相关的方向，不可以用于比较3个之间的相关性，因为随机变量的取值范围不同。

$Cov(X,Y)\\=E[(X-E[X])(Y-E[Y])] \\=E[XY]-2E[X]E[Y]+E[X]E[Y] \\=E[XY]-E[X]E[Y]$

相关系数：表示两个变量的线性相关程度，越绝对值越接近于1线性相关性越强，为0表示线性无关，可用于比较。可以看成表转化后的协方差，剔除了两个变量变化程度的影响。

$\rho=\frac{Cov(X,Y)}{\sqrt{Var[X]Var[Y]}}$ ，其中Var表示方差