JDA(joint distribution adaptation)/2013
文章目录
Abstract
在domain adaptation应用在CV领域时,目前大多先验(prior)方法都没有同时减少域之间边缘分布和条件分布的difference。本文提出JDA,通过principled 降维操作,联合地(jointly)适应marginal distribution和conditional distribution,并且构建新的特征表达方法。实验证明JDA在4类cross-domain图像分类问题上效果优于最新的方法。
1. Introduction
motivation
cv领域,标签数据常常很稀疏sparse,所以希望通过related source domain的标签数据训练得到的分类器在target domain上复用。
cross- domain problem
source和target数据采样自不同的(边缘)概率分布,故主要的问题就是reduce the distribution difference between domains。
recent works
- 找到能降低分布差异、同时保留input数据的关键性质的shared feature representation
[15]Domain adaptation via transfer component analysis(TCA)
[18]Domain adaptation of conditional probability models via feature subsetting
[21]Knowledge transfer with llow-quality data: A feature extraction issue
- re-weight source data in order to minimize the distribution difference and then learn a classifier on the re-weighted source data
分布差异的度量方法
- 只基于marginal,或者只基于conditional分布
- 同时匹配marginal和conditional
已有部分工作:[26],[18],[23]
问题:需要target有部分labeled data
本文的问题设置
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BfvZYkcd-1572687283236)(C:%5CUsers%5Cjingge%5CPictures%5Cimage_save%5C%E6%8D%95%E8%8E%B7.PNG)]
-
P ( X S ) ≠ P ( X T ) P(X_S)\not=P(X_T) P(XS)=P(XT)
也就是图中不区分类别(红色和蓝色),两个图中的点的分布不一样(聚集、离散密集程度不同,分布方向也不同) -
P ( Y S ∣ X S ) ≠ P ( Y T ∣ X T ) P(Y_S|X_S)\not=P(Y_T|X_T) P(YS∣XS)=P(YT∣XT)
即给定一堆input数据,标签的分布,也就是正负样本的分布不同,图中来看,就是红色、蓝色标签样本的分布不同,分割平面(线)也不同。 -
target域没有任何labeled数据
本文的工作
- 同时adapt边缘和条件分布
- 拓展nonparametric MMD(maximum mean discrepancy)来度量边缘和条件分布,并整合到PCA上来构建有效、鲁邦的特征表达。
实验
- 数据集(4个):
digit (USPS, MNIST)
face (PIE)
object (COIL20, Office+Caltech [20]) - improvement:+7.57%
2. Related work
根据survey[16],有两类transfer learning方法:
-
(1) instance reweighting:
给source domain的一些标签数据重新设置权重,然后在target domain中复用。 -
(2) feature extraction:
找到减小source和target差异的好的特征表达,同时减小分类回归误差。本文方法是第二类,可以细分为以下两个子类:
-
① property preservation:
通过保留重要的数据特性(如统计特性、几何结构),在domain之间共享隐空间的factors。
-
② distribution adaptation:
最小化边缘分布,或者条件分布,或者同时最小化两个,的距离。未来实现条件分布的匹配,这些方法通常需要标记的target数据,或者多个source域。
-
3. Joint distribution adaptation
3.1 问题定义
3.1.1符号定义
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-S3kIMMA4-1572687283237)(C:%5CUsers%5Cjingge%5CPictures%5Cimage_save%5C%E6%8D%95%E8%8E%B72.PNG)]
-
domain
域 D \mathcal{D} D 包含 m m m维特征空间 X \mathcal{X} X,和在其上分布的边缘概率分布 P ( x ) P(\rm{x}) P(x),即:
D = { X , P ( x ) } \mathcal{D}=\{\mathcal{X},P(\mathbf{x})\} D={X,P(x)},其中 x ∈ X \bold{x}\in{\mathcal{X}} x∈X
-
task
Given domain D \mathcal{D} D, a task T \mathcal{T} T is composed of a C C C-cardinality label set Y \mathcal{Y} Y,i.e., T = { Y , f ( x ) } \mathcal{T}=\{\mathcal{Y},f(\bold{x})\} T={Y,f(x)}, where y ∈ Y y\in{\mathcal{Y}} y∈Y,and a classifier f ( x ) = Q ( y ∣ x ) f(\bold{x})=Q(y|\bold{x}) f(x)=Q(y∣x)can be interpreted as the conditional probability distribution,即已知数据的分类器也可以看成是一种条件概率分布。
3.1.2 问题定义
-
problem 1(joint distribution adaptation)
Given labeled source domain D s = { ( x 1 , y 1 ) , . . . , ( x n s , y n s ) } \mathcal{D}_s=\{(\bold{x}_1,y_1),...,(\bold{x}_{n_s},y_{n_s})\} Ds={(x1,y1),...,(xns,yns)},
unlabeled target domain D t = { x n s + 1 , . . . , x n s + n t } \mathcal{D}_t=\{\bold{x}_{n_s+1},...,\bold{x}_{{n_s}+n_t}\} Dt={xns+1,...,xns+nt} under
the assumptions that X s = X t \mathcal{X}_s=\mathcal{X}_t Xs=Xt,即数据特征空间是相同的,Y s = Y t \mathcal{Y}_s=\mathcal{Y}_t Ys=Yt,即标签空间或者说标签是类别是相同的,
再就是迁移学习的数据分布条件,边缘分布 P s ( x s ) ≠ P t ( x t ) P_s(\bold{x}_s)\not=P_t(\bold{x}_t) Ps(xs)=Pt(xt)不等,
条件概率分布 Q s ( y s ∣ x s ) ) ≠ Q t ( y t ∣ x t ) ) Q_s(y_s|\bold{x}_s))\not=Q_t(y_t|\bold{x}_t)) Qs(ys∣xs))=Qt(yt∣xt))不等,
我们迁移学习的目标:是学习一种特征表达,使得①边缘分布 P s ( x s ) P_s(\bold{x}_s) Ps(xs) 和 P t ( x t ) P_t(\bold{x}_t) Pt(xt)的分布差异(distribution difference)② 条件概率分布 Q s ( y s ∣ x s ) ) Q_s(y_s|\bold{x}_s)) Qs(ys∣xs))和 Q t ( y t ∣ x t ) ) Q_t(y_t|\bold{x}_t)) Qt(yt∣xt))的分布差异最小化。
3.2 proposed approach
本文方法是,通过一个特征变换(adaptation transformation)矩阵 T T T,使得变换后的特征 x \bold{x} x,加上标签 y y y 的联合期望,在两个域之间是match的,从而我们说这时两个域是相似的,任务也是相似的,从而可以进行迁移学习。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6NrQXfI3-1572687283238)(C:%5CUsers%5Cjingge%5CPictures%5Cimage_save%5C3.PNG)]
由于target域没有标签数据,所以 Q t ( y t ∣ x t ) Q_t(y_t|\bold{x}_t) Qt(yt∣xt)不能直接估计。最好的近似是假设条件分布是相同的,即 Q t ( y t ∣ x t ) = Q s ( y s ∣ x s ) Q_t(y_t|\bold{x}_t)=Q_s(y_s|\bold{x}_s) Qt(yt∣xt)=Qs(ys∣xs),这可以通过将在标签source数据上训练的分类器 f f f,应用在未标签target数据上实现。为了获得更高精度的估计 Q t Q_t Qt,我们提出了一种迭代的pseudo label refinement伪标签细化的策略来找到变换 T T T 和分类器 f f f。
3.2.1 feature transformation特征变换
我们选择PCA主成分分析(Principle Component Analysis)来进行数据的降维。
-
输入数据input data matrix: X = [ x 1 , . . . , x n ] ∈ R m × n \bold{X}=[\bold{x}_1,...,\bold{x}_n]\in\Bbb{R}^{m\times n} X=[x1,...,xn]∈Rm×n,注意包含的是所有source和target的数据;
-
中心矩阵centering matrix of input: H = I − 1 n 1 \bold{H} = \bold{I} - \frac{1}{n}\bold{1} H=I−n11,也是针对source和target所有数据一起的和,其中 n = n s + n t n= n_s+n_t n=ns+nt, I , 1 ∈ R n × n \bold{I},\bold{1}\in\Bbb{R}^{n\times n} I,1∈Rn×n。
-
协方差矩阵covariance matrix:可以写成 X H X T \bold{XHX^T} XHXT。推导见中心矩阵。
PCA的目标是寻找一个正交变换矩阵(orthogonal transformation matrix) A ∈ R m × k \bold{A}\in\Bbb{R}^{m\times k} A∈Rm×k,让映射后的数据$\in\Bbb{R}^{k \times n} $方差最大,即:
max A T A = I t r ( A T X H X T A ) \max \limits_{\bold{A}^T\bold{A}=\bold{I}}\bold{tr}(\bold{A^TXHX^TA}) ATA=Imaxtr(ATXHXTA)
协方差是对两个随机变量联合分布线性相关程度的一种度量。两个随机变量越线性相关,协方差越大,完全线性无关,协方差为0。
协方差:表示两个变量的线性相关的方向,不可以用于比较3个之间的相关性,因为随机变量的取值范围不同。
C o v ( X , Y ) = E [ ( X − E [ X ] ) ( Y − E [ Y ] ) ] = E [ X Y ] − 2 E [ X ] E [ Y ] + E [ X ] E [ Y ] = E [ X Y ] − E [ X ] E [ Y ] Cov(X,Y)\\=E[(X-E[X])(Y-E[Y])] \\=E[XY]-2E[X]E[Y]+E[X]E[Y] \\=E[XY]-E[X]E[Y] Cov(X,Y)=E[(X−E[X])(Y−E[Y])]=E[XY]−2E[X]E[Y]+E[X]E[Y]=E[XY]−E[X]E[Y]
相关系数:表示两个变量的线性相关程度,越绝对值越接近于1线性相关性越强,为0表示线性无关,可用于比较。可以看成表转化后的协方差,剔除了两个变量变化程度的影响。
ρ = C o v ( X , Y ) V a r [ X ] V a r [ Y ] \rho=\frac{Cov(X,Y)}{\sqrt{Var[X]Var[Y]}} ρ=Var[X]Var[Y]Cov(X,Y),其中Var表示方差
协方差矩阵对角线上的元素表示的是同一维度内的方差,其他位置是维度间的协方差,因为想要降维后各个维度之间尽量垂直(正交),或者说线性相关性低,即协方差小、接近0;而维度内的数据希望它们尽量分散,即协方差矩阵中对角线表示的各个维度内的方差要大。
特征向量
$A\vec v=\lambda \vec v , 注 意 其 中 ,注意其中 ,注意其中\lambda 是 标 量 , 即 长 度 变 化 , 但 方 向 不 变 , 则 称 是标量,即长度变化,但方向不变,则称 是标量,即长度变化,但方向不变,则称\vec v 为 矩 阵 为矩阵 为矩阵A$的特征向量。
特征值