【论文阅读】JDA(joint distribution adaptation)/2013初稿

JDA(joint distribution adaptation)/2013

Abstract

在domain adaptation应用在CV领域时,目前大多先验(prior)方法都没有同时减少域之间边缘分布和条件分布的difference。本文提出JDA,通过principled 降维操作,联合地(jointly)适应marginal distribution和conditional distribution,并且构建新的特征表达方法。实验证明JDA在4类cross-domain图像分类问题上效果优于最新的方法。

1. Introduction

motivation

cv领域,标签数据常常很稀疏sparse,所以希望通过related source domain的标签数据训练得到的分类器在target domain上复用。

cross- domain problem

source和target数据采样自不同的(边缘)概率分布,故主要的问题就是reduce the distribution difference between domains。

recent works

  • 找到能降低分布差异、同时保留input数据的关键性质的shared feature representation

[15]Domain adaptation via transfer component analysis(TCA)
[18]Domain adaptation of conditional probability models via feature subsetting
[21]Knowledge transfer with llow-quality data: A feature extraction issue

  • re-weight source data in order to minimize the distribution difference and then learn a classifier on the re-weighted source data

分布差异的度量方法

  • 只基于marginal,或者只基于conditional分布
  • 同时匹配marginal和conditional
    已有部分工作:[26],[18],[23]
    问题:需要target有部分labeled data

本文的问题设置

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BfvZYkcd-1572687283236)(C:%5CUsers%5Cjingge%5CPictures%5Cimage_save%5C%E6%8D%95%E8%8E%B7.PNG)]

  • P ( X S ) ≠ P ( X T ) P(X_S)\not=P(X_T) P(XS)=P(XT)
    也就是图中不区分类别(红色和蓝色),两个图中的点的分布不一样(聚集、离散密集程度不同,分布方向也不同)

  • P ( Y S ∣ X S ) ≠ P ( Y T ∣ X T ) P(Y_S|X_S)\not=P(Y_T|X_T) P(YSXS)=P(YTXT)
    即给定一堆input数据,标签的分布,也就是正负样本的分布不同,图中来看,就是红色、蓝色标签样本的分布不同,分割平面(线)也不同。

  • target域没有任何labeled数据

本文的工作

  • 同时adapt边缘和条件分布
  • 拓展nonparametric MMD(maximum mean discrepancy)来度量边缘和条件分布,并整合到PCA上来构建有效、鲁邦的特征表达。

实验

  • 数据集(4个):
    digit (USPS, MNIST)
    face (PIE)
    object (COIL20, Office+Caltech [20])
  • improvement:+7.57%

2. Related work

根据survey[16],有两类transfer learning方法:

  • (1) instance reweighting:
    给source domain的一些标签数据重新设置权重,然后在target domain中复用。

  • (2) feature extraction:
    找到减小source和target差异的好的特征表达,同时减小分类回归误差。

    本文方法是第二类,可以细分为以下两个子类:

    • ① property preservation:

      通过保留重要的数据特性(如统计特性、几何结构),在domain之间共享隐空间的factors。

    • ② distribution adaptation:
      最小化边缘分布,或者条件分布,或者同时最小化两个,的距离。未来实现条件分布的匹配,这些方法通常需要标记的target数据,或者多个source域。

3. Joint distribution adaptation

3.1 问题定义

3.1.1符号定义

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-S3kIMMA4-1572687283237)(C:%5CUsers%5Cjingge%5CPictures%5Cimage_save%5C%E6%8D%95%E8%8E%B72.PNG)]

  • domain

    D \mathcal{D} D 包含 m m m维特征空间 X \mathcal{X} X,和在其上分布的边缘概率分布 P ( x ) P(\rm{x}) P(x),即:

    D = { X , P ( x ) } \mathcal{D}=\{\mathcal{X},P(\mathbf{x})\} D={X,P(x)},其中 x ∈ X \bold{x}\in{\mathcal{X}} xX

  • task

    Given domain D \mathcal{D} D, a task T \mathcal{T} T is composed of a C C C-cardinality label set Y \mathcal{Y} Y,i.e., T = { Y , f ( x ) } \mathcal{T}=\{\mathcal{Y},f(\bold{x})\} T={Y,f(x)}, where y ∈ Y y\in{\mathcal{Y}} yY,and a classifier f ( x ) = Q ( y ∣ x ) f(\bold{x})=Q(y|\bold{x}) f(x)=Q(yx)can be interpreted as the conditional probability distribution,即已知数据的分类器也可以看成是一种条件概率分布。

3.1.2 问题定义
  • problem 1(joint distribution adaptation)

    Given labeled source domain D s = { ( x 1 , y 1 ) , . . . , ( x n s , y n s ) } \mathcal{D}_s=\{(\bold{x}_1,y_1),...,(\bold{x}_{n_s},y_{n_s})\} Ds={(x1,y1),...,(xns,yns)}

    unlabeled target domain D t = { x n s + 1 , . . . , x n s + n t } \mathcal{D}_t=\{\bold{x}_{n_s+1},...,\bold{x}_{{n_s}+n_t}\} Dt={xns+1,...,xns+nt} under
    the assumptions that X s = X t \mathcal{X}_s=\mathcal{X}_t Xs=Xt,即数据特征空间是相同的,

    Y s = Y t \mathcal{Y}_s=\mathcal{Y}_t Ys=Yt,即标签空间或者说标签是类别是相同的,

    再就是迁移学习的数据分布条件,边缘分布 P s ( x s ) ≠ P t ( x t ) P_s(\bold{x}_s)\not=P_t(\bold{x}_t) Ps(xs)=Pt(xt)不等,

    条件概率分布 Q s ( y s ∣ x s ) ) ≠ Q t ( y t ∣ x t ) ) Q_s(y_s|\bold{x}_s))\not=Q_t(y_t|\bold{x}_t)) Qs(ysxs))=Qt(ytxt))不等,

    我们迁移学习的目标:是学习一种特征表达,使得①边缘分布 P s ( x s ) P_s(\bold{x}_s) Ps(xs) P t ( x t ) P_t(\bold{x}_t) Pt(xt)的分布差异(distribution difference)② 条件概率分布 Q s ( y s ∣ x s ) ) Q_s(y_s|\bold{x}_s)) Qs(ysxs)) Q t ( y t ∣ x t ) ) Q_t(y_t|\bold{x}_t)) Qt(ytxt))的分布差异最小化。

3.2 proposed approach

本文方法是,通过一个特征变换(adaptation transformation)矩阵 T T T,使得变换后的特征 x \bold{x} x,加上标签 y y y 的联合期望,在两个域之间是match的,从而我们说这时两个域是相似的,任务也是相似的,从而可以进行迁移学习。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6NrQXfI3-1572687283238)(C:%5CUsers%5Cjingge%5CPictures%5Cimage_save%5C3.PNG)]

由于target域没有标签数据,所以 Q t ( y t ∣ x t ) Q_t(y_t|\bold{x}_t) Qt(ytxt)不能直接估计。最好的近似是假设条件分布是相同的,即 Q t ( y t ∣ x t ) = Q s ( y s ∣ x s ) Q_t(y_t|\bold{x}_t)=Q_s(y_s|\bold{x}_s) Qt(ytxt)=Qs(ysxs),这可以通过将在标签source数据上训练的分类器 f f f,应用在未标签target数据上实现。为了获得更高精度的估计 Q t Q_t Qt,我们提出了一种迭代的pseudo label refinement伪标签细化的策略来找到变换 T T T 和分类器 f f f

3.2.1 feature transformation特征变换

我们选择PCA主成分分析(Principle Component Analysis)来进行数据的降维。

  • 输入数据input data matrix: X = [ x 1 , . . . , x n ] ∈ R m × n \bold{X}=[\bold{x}_1,...,\bold{x}_n]\in\Bbb{R}^{m\times n} X=[x1,...,xn]Rm×n,注意包含的是所有source和target的数据;

  • 中心矩阵centering matrix of input: H = I − 1 n 1 \bold{H} = \bold{I} - \frac{1}{n}\bold{1} H=In11,也是针对source和target所有数据一起的和,其中 n = n s + n t n= n_s+n_t n=ns+nt I , 1 ∈ R n × n \bold{I},\bold{1}\in\Bbb{R}^{n\times n} I,1Rn×n

  • 协方差矩阵covariance matrix:可以写成 X H X T \bold{XHX^T} XHXT。推导见中心矩阵

PCA的目标是寻找一个正交变换矩阵(orthogonal transformation matrix) A ∈ R m × k \bold{A}\in\Bbb{R}^{m\times k} ARm×k,让映射后的数据$\in\Bbb{R}^{k \times n} $方差最大,即:

max ⁡ A T A = I t r ( A T X H X T A ) \max \limits_{\bold{A}^T\bold{A}=\bold{I}}\bold{tr}(\bold{A^TXHX^TA}) ATA=Imaxtr(ATXHXTA)

协方差是对两个随机变量联合分布线性相关程度的一种度量。两个随机变量越线性相关,协方差越大,完全线性无关,协方差为0。

  • 协方差:表示两个变量的线性相关的方向,不可以用于比较3个之间的相关性,因为随机变量的取值范围不同。

    C o v ( X , Y ) = E [ ( X − E [ X ] ) ( Y − E [ Y ] ) ] = E [ X Y ] − 2 E [ X ] E [ Y ] + E [ X ] E [ Y ] = E [ X Y ] − E [ X ] E [ Y ] Cov(X,Y)\\=E[(X-E[X])(Y-E[Y])] \\=E[XY]-2E[X]E[Y]+E[X]E[Y] \\=E[XY]-E[X]E[Y] Cov(X,Y)=E[(XE[X])(YE[Y])]=E[XY]2E[X]E[Y]+E[X]E[Y]=E[XY]E[X]E[Y]

  • 相关系数:表示两个变量的线性相关程度,越绝对值越接近于1线性相关性越强,为0表示线性无关,可用于比较。可以看成表转化后的协方差,剔除了两个变量变化程度的影响。

    ρ = C o v ( X , Y ) V a r [ X ] V a r [ Y ] \rho=\frac{Cov(X,Y)}{\sqrt{Var[X]Var[Y]}} ρ=Var[X]Var[Y] Cov(X,Y),其中Var表示方差

协方差矩阵对角线上的元素表示的是同一维度内的方差,其他位置是维度间的协方差,因为想要降维后各个维度之间尽量垂直(正交),或者说线性相关性低,即协方差小、接近0;而维度内的数据希望它们尽量分散,即协方差矩阵中对角线表示的各个维度内的方差要大

特征值分解eigndecomposition

  • 特征向量

    $A\vec v=\lambda \vec v , 注 意 其 中 ,注意其中 \lambda 是 标 量 , 即 长 度 变 化 , 但 方 向 不 变 , 则 称 是标量,即长度变化,但方向不变,则称 \vec v 为 矩 阵 为矩阵 A$的特征向量。

  • 特征值

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值