迁移学习——Robust Visual Domain Adaptation with Low-Rank Reconstruction

《Robust Visual Domain Adaptation with Low-Rank Reconstruction》学习
Computer Vision


摘要

本文提出了一种低秩重构方法来减小域分布差异。
我们的方法在适应过程中捕捉源样本的内在相关性,同时发现源域中无法适应的噪声和异常值,使其比以前的方法具有更强的鲁棒性。
我们将问题表述为一个约束核范数和 l 2 , 1 \mathcal{l}_{2,1} l2,1范数最小化目标,然后采用增广拉格朗日乘子(ALM)方法进行优化。
在各种视觉适应任务上的大量实验表明,所提出的方法一致且显著优于现有的领域适应方法。


一、介绍

视觉分类常面临数据泛滥和标签稀缺的困境,为了解决这个问题,人们用互联网上的数据样本丰富有限的训练数据样本收集。然而,这种策略的一个问题来自于所考虑的目标域与提供额外数据和标签的源域之间可能存在的错位。从物理上讲,这种错位是由各个视觉域在各种视觉线索方面的偏差造成的,例如视觉分辨率、视点、照明等。
在这里插入图片描述
这种错位对应于特定特征空间中数据分布的变化,准确地说,源域和目标域中样本的边缘分布是不同的。这使得直接合并来自源域的数据是有害的。
形式上,域自适应解决了源域中样本 X s X_s Xs和目标域中样本 X t X_t Xt的边缘分布不同的问题,而提供样本的标签的条件分布 P ( Y s ∣ X s ) P(Y_s | X_s) PYsXs P ( Y t ∣ X t ) P(Y_t | X_t) PYtXt Y s Y_s Ys Y t Y_t Yt表示任一域中的标签)相似。
根据源信息的利用方式,在基于分类器和基于表示的自适应之间进行划分。
前者主张通过从源域调整分类器来隐式适应目标分布,而后者试图通过学习变换来调整源数据的表示来实现对齐
先前提案的共同问题有两个:

  1. 首先,在自适应过程中,它们通常单独处理源样本,而不考虑相互依赖性。这可能(隐式或显式)导致自适应分布任意分散,并且源数据的单个数据样本之外的任何结构信息都可能受到破坏。
  2. 其次,他们盲目地将所有样本(包括噪声和特别是可能的异常值)从源域转换到目标。在学习识别模型时,后者可能导致模型严重失真或损坏。

我们提出了一种新的视觉域自适应方法,该方法不仅试图在自适应过程中保持源样本的内在相关性,而且通过考虑噪声和去除异常值来实现更稳健的自适应。
基本思想是将源域中的数据样本转换为中间表示,以便每个转换后的样本可以由目标域的样本线性重建。
基于这种线性关系,我们使用低秩结构捕捉源样本的内在相关性,同时使用稀疏结构识别外围样本。整个转换过程是无监督的,没有利用任何标签信息。
然后,我们将我们的提案制定成一个受约束的核规范,然后 l 2 , 1 l_{2,1} l2,1范数最小化问题,并采用增广拉格朗日乘子(ALM)方法进行优化
此外,我们将我们的方法扩展到考虑多个相关源域的场景,并提出了一种多任务低秩域自适应方法,该方法可以通过低秩重建将多个源域同时自适应到目标域
在这里插入图片描述

二、相关工作

  1. Daume III等人提出了特征复制(FR),通过使用源和目标的简单增强特征进行支持向量机训练。
  2. 杨等人提出了一种自适应支持向量机(A-SVM)方法,其中目标分类器 f t ( x ) f^ t(x) ft(x)是从辅助分类器 f s ( x ) f ^s(x) fsx改编而来的,通过这种方法,训练可以归结为学习扰动 △ f ( x ) \bigtriangleup f(x) f(x)使得 f t ( x ) = f s ( x ) + △ f ( x ) f^ t(x)=f^ s(x)+\bigtriangleup f(x) ftx=fs(x)+f(x)
  3. 姜等人提出了跨域支持向量机(CDSVM)方法,该方法基于k近邻为每个源样本定义权重,然后重新训练支持向量机分类器以更新权重。

还有一些其他工作使用多核学习来对齐源域和目标域之间的分布
此外,Saenko等人提出了一种度量学习方法,以使获得的源域视觉模型适应新域,并最小化不同特征分布之间的方差。
与我们的建议最相关的是[13],它提出了一种无监督的增量学习算法。
具体来说,他们建议在源域和目标域之间创建一系列中间表示子空间(因此是增量的),以解释域偏移,通过该偏移,源标签信息可以“传播”到目标域。
相比之下,我们在这里侧重于直接转换,但在这里强调样本相关性和噪声/异常值去除,尽管在转换过程中,我们的设置也是无监督的。
鲁棒主成分分析旨在将损坏的低秩矩阵 X X X分解为干净的低秩矩阵 Z Z Z和稀疏矩阵 E E E,以解释稀疏误差。
此外,陈等人提出使用低秩结构来捕捉不同任务的相关性,以进行多任务学习,同时使用 l 2 , 1 l_{2,1} l2,1范数去除异常值。
不同的是,我们提出的方法利用低秩和群稀疏结构的优势来寻找一个转换函数,该函数可以弥合不同域之间的分布差距。

三、基于低秩重构的鲁棒域适应

3.1单源域适配

假设我们有一组 n n n个样本 S = [ s 1 , … , s n ] ∈ R d × n S=[s_1,…,s_n]\in \mathbb{R}^{d\times n} S=[s1sn]Rd×n单源域中和一组 p p p样本 T = [ t 1 , … , t p ] ∈ R d × p T=[t_1,…,t_p]\in \mathbb{R}^{d\times p} T=[t1tp]Rd×p目标域中,其中 d d d是特征向量的维数。我们的目标是找到一个变换矩阵 W ∈ R d × d W\in \mathbb{R}^{d\times d} WRd×d将源域 S S S转换为中间表示矩阵,从而保持以下关系:
W S = T Z , (1) WS=TZ,\tag{1} WS=TZ,(1)
其中, W S = [ W s 1 , … , W s n ] ∈ R d × n WS=[W_ {s_1},…,W_ {s_n}]\in \mathbb{R}^{d\times n} WS=[Ws1Wsn]Rd×n表示由目标域重构的变换矩阵, Z = [ z 1 , … , z n ] ∈ R p × n Z=[z_1,…,z_n]\in \mathbb{R}^{p\times n} Z=[z1zn]Rp×n是每个 z i ∈ R p z_i\in \mathbb{R}^{p} ziRp的重构系数矩阵是对应于变换样本 W s i W_{s_i} Wsi的重构系数向量。
这样,每个变换后的源样本将由目标样本线性重构,这可能会显著减少域分布的差异。
然而,上述公式独立地找到每个源样本的重构,因此可能无法捕获源域的任何结构信息。
等式(1)中重建的另一个问题是,它无法处理源域中与目标域没有关联的不良噪声和异常值。
为了有效解决上述问题,我们将域适应问题表述为以下目标函数:
m i n W , Z , E r a n k ( Z ) + α ∥ E ∥ 2 , 1 s . t .   W S = T Z + E , W W T = I , (2) \mathop{min}\limits_{W,Z,E}rank(Z)+\alpha\|E\|_{2,1}\\ s.t.\space WS=TZ+E,\tag{2}\\ WW^T=I, W,Z,Eminrank(Z)+αE2,1s.t. WS=TZ+E,WWT=I,(2)
其中 r a n k ( ⋅ ) rank(\cdot) rank()表示矩阵的秩, ∥ E ∥ 2 , 1 = ∑ j = 1 n ∑ i = 1 d ( E i j ) 2 \|E\|_{2,1}=\sum ^n_{j=1}\sqrt {\sum^d_{ i=1}(E_{ij})^2} E2,1=j=1ni=1d(Eij)2 被称为 l 2 , 1 l_{2,1} l2,1范数, α > 0 \alpha>0 α>0权衡参数。
他约束 W W T = I W W^T= I WWT=I,以保证得到的 W W W是一个基变换矩阵。
首先, r a n k ( Z ) rank(Z) rank(Z)的最小化倾向于找到一个具有最低秩结构的重构系数矩阵。
这本质上是将不同源样本的重建组合在一起,这就得到了所有源样本的相关性。
第二,最小化 ∥ E ∥ 2 , 1 \|E\|_{2,1} E2,1使得 E E E的误差列为零,这是基于源域的一些样本是噪声或异常值,而其他样本足够干净,可以成功适应的假设。
通过将源域的噪声和异常点信息分解到矩阵 E E E中,使自适应算法对噪声和异常点具有更强的鲁棒性。
上述优化问题由于秩函数的离散性而难以求解。幸运的是,以下优化为问题(2)提供了一个很好的替代品:
m i n W , Z , E ∥ Z ∥ ∗ + α ∥ E ∥ 2 , 1 s . t .   W S = T Z + E , W W T = I , (3) \mathop{min}\limits_{W,Z,E}\|Z\|_*+\alpha\|E\|_{2,1}\\ s.t.\space WS=TZ+E,\tag{3}\\ WW^T=I, W,Z,EminZ+αE2,1s.t. WS=TZ+E,WWT=I,(3)
∥ ⋅ ∥ ∗ \|\cdot\|_* 表示矩阵的核范数,即矩阵奇异值的和。
一旦我们得到了最优解 ( W ^ , Z ^ , E ^ ) (\hat{W},\hat{Z},\hat{E}) (W^Z^E^),我们可以按照以下方式将源数据转换到目标域:
W ^ S − E ^ = [ W ^ s 1 − e ^ 1 , … , W ^ s n − e ^ n ] , (4) \hat{W}S-\hat{E}=[\hat{W}s_1-\hat{e}_1,\dots,\hat{W}s_n-\hat{e}_n],\tag{4} W^SE^=[W^s1e^1,,W^sne^n],(4)
式中 e i ^ \hat{e_i} ei^表示矩阵 E ^ \hat{E} E^的第 i i i列。
最后,将变换后的源样本与目标样本 T T T混合作为增强训练样本,训练分类器,用于对目标域内未见测试样本进行识别

3.2多源域适配

假设我们有 M M M个源域, S 1 , S 2 , … , S M , S_1,S_2,\dots, S_M, S1,S2,,SM,其中每个 S i ∈ R d × n S_i\in \mathbb{R}^{d\times n} SiRd×n为第 i i i源域的特征矩阵。我们的多任务低秩域适应方法可以表示为:
m i n W i , Z i , E i ∑ i = 1 M ( ∥ Z i ∥ ∗ + α ∥ E i ∥ 2 , 1 ) + β ∥ Q ∥ ∗ s . t .   W i S i = T Z i + E i , W i W i T = I , i = 1 , … , M , (5) \begin{gathered} \mathop{min}\limits_{W_i,Z_i,E_i}\sum^M_{i=1}(\|Z_i\|_*+\alpha\|E_i\|_{2,1})+\beta\|Q\|_*\tag{5}\\ s.t.\space W_iS_i=TZ_i+E_i,\\ W_iW_i^T=I,i=1,\dots,M, \end{gathered} Wi,Zi,Eimini=1M(Zi+αEi2,1)+βQs.t. WiSi=TZi+Ei,WiWiT=I,i=1,,M,(5)
其中 α , β > 0 \alpha,\beta>0 α,β>0是两个权衡参数, W i , Z i W_i ,Z_i Wi,Zi E i E_i Ei是变换矩阵,系数矩阵和第 i i i维源域的稀疏误差矩阵。
矩阵 Q Q Q是由 Q = [ W 1 S 1 ∣ W 2 S 2 ∣ … ∣ W M S M ] ∈ R d × ( M × n ) Q = [W_1S_1| W_2S_2|\dots| W_MS_M]\in \mathbb{R}^{d\times (M\times n)} Q=[W1S1W2S2WMSM]Rd×(M×n),其中 W i S i ∈ R d × n W_iS_i\in \mathbb{R}^{d\times n} WiSiRd×n表示变换后的第 i i i个源域。
与式(3)中的单域适应公式相比,提出的多任务域适应目标具有以下特征:

  1. 对于每个源域 S i S_i Si,仍然使用低秩和稀疏性约束来寻找变换矩阵 W i W_i Wi,这保持了关联结构,并提供了噪声容忍特性。
  2. 合并后的 Q Q Q被强制为低秩,特别添加它是为了发现跨不同源域的低秩结构,从而以一种集体的方式进一步减少分布差异。

与单源域的情况一样,在得到最优解 ( W i , Z i , E i ) (W_i, Z_i, E_i) (Wi,Zi,Ei)后, i = 1 , … , M , i = 1,\dots, M, i=1M我们可以将每个源域转换为 W i S i − E i W_iS_i−E_i WiSiEi,然后将所有源域与目标域 T T T合并,作为训练分类器的训练数据。

3.3最优化

问题(5)是一个典型的混合核范数和 l 2 , 1 l_{2,1} l2,1范数优化问题。但与现有的优化公式不同的是,它具有矩阵正交约束 W i W i T = I , i = 1 , … , M , W_iW_i^T=I,i=1,\dots,M, WiWiT=I,i=1,,M,我们使用矩阵正交化来处理这些约束。
为了求解(5)中的优化问题,我们首先将其转化为如下等价形式:
m i n J , F i , Z i , E i , W i ∑ i = 1 M ( ∥ F i ∥ ∗ + α ∥ E i ∥ 2 , 1 ) + β ∥ J ∥ ∗  s.t.   W i S i = T Z i + E i , Q = J , Z i = F i , i = 1 , … , M , (6) \begin{gathered} \mathop{min}\limits_{J,F_i,Z_i,E_i,W_i}\sum^M_{i=1}(\|F_i\|_*+\alpha\|E_i\|_{2,1})+\beta\|J\|_*\tag{6}\\ \text{ s.t. }\space W_iS_i=TZ_i+E_i,\\ Q=J,\\ Z_i=F_i,i=1,\dots,M, \end{gathered} J,Fi,Zi,Ei,Wimini=1M(Fi+αEi2,1)+βJ s.t.  WiSi=TZi+Ei,Q=J,Zi=Fi,i=1,,M,(6)
其中 J = [ J 1 , … , J M ] J=[J_1,\dots,J_M] J=[J1,,JM]的每一个 J i J_i Ji对应于 W i S i W_iS_i WiSi,正交性约束被忽略。
上述等效问题可以用最小化的增广拉格朗日乘子法[16]求解,其中它使增广拉格朗日函数最小化,形式如下:
min ⁡ J i , F i , Z i , E i , W i , Y i , U i , V i β ∥ J ∥ ∗ + ∑ i = 1 M ( ∥ F i ∥ ∗ + α ∥ E i ∥ 2 , 1 ) + ∑ i = 1 M ( ⟨ U i , W i S i − J i ⟩ + ⟨ Y i , Z i − F i ⟩ + μ 2 ∥ Z i − F i ∥ F 2 + ⟨ V i , W i S i − T Z i − E i ⟩ + μ 2 ∥ W i S i − J i ∥ F 2 + μ 2 ∥ W i S i − T Z i − E i ∥ F 2 ) (7) \begin{aligned} &\min _{J_{i}, F_{i}, Z_{i}, E_{i}, W_{i}, Y_{i}, U_{i}, V_{i}} \beta\|J\|_{*}+\sum_{i=1}^{M}\left(\left\|F_{i}\right\|_{*}+\alpha\left\|E_{i}\right\|_{2,1}\right) \\ &+\sum_{i=1}^{M}\left(\left\langle U_{i}, W_{i} S_{i}-J_{i}\right\rangle+\left\langle Y_{i}, Z_{i}-F_{i}\right\rangle+\frac{\mu}{2}\left\|Z_{i}-F_{i}\right\|_{F}^{2}\right. \\ &+\left\langle V_{i}, W_{i} S_{i}-T Z_{i}-E_{i}\right\rangle+\frac{\mu}{2}\left\|W_{i} S_{i}-J_{i}\right\|_{F}^{2} \\ &\left.+\frac{\mu}{2}\left\|W_{i} S_{i}-T Z_{i}-E_{i}\right\|_{F}^{2}\right)\tag{7} \end{aligned} Ji,Fi,Zi,Ei,Wi,Yi,Ui,ViminβJ+i=1M(Fi+αEi2,1)+i=1M(Ui,WiSiJi+Yi,ZiFi+2μZiFiF2+Vi,WiSiTZiEi+2μWiSiJiF2+2μWiSiTZiEiF2)(7)
⟨ ⋅ , ⋅ ⟩ \langle\cdot,\cdot\rangle ,表示内积运算符, μ > 0 \mu>0 μ>0是一个惩罚参数, Y 1 , … , Y M , U 1 , … , U M , 和 V 1 , … , V M , Y_1,\dots,Y_M,U_1,\dots,U_M,和V_1,\dots,V_M, Y1,,YM,U1,,UM,V1,,VM,是拉格朗日乘数。
优化过程如算法1所示。
在这里插入图片描述

注意,优化过程中涉及的子问题都有封闭形式的解。
其中步骤2和步骤5可采用奇异值阈值算子求解,步骤6可采用解析解求解。
图3显示了迭代优化的收敛过程,这是在三域目标识别数据集上自适应dslr源域和webcam目标域时得到的。可以看出,经过约40次迭代,目标函数收敛到最小。
在这里插入图片描述

四、实验

在每个任务中,将比较以下领域适配方法的性能。

  1. 朴素组合(NC)。我们直接用源域的样本增强目标域,而不需要任何变换。
  2. 自适应SVM (A-SVM);该方法首先在源域训练SVM分类器,然后将训练样本调整到目标域
  3. 噪声域自适应重建(NDAR)。在这种情况下,我们不考虑去除源域中的噪声和异常信息,这可以通过去除等式(5)中的 E i E_i Ei项来实现。
  4. 我们提出了RDALR方法。
  5. 最近文献中最先进的领域适应方法

我们使用一对多支持向量机作为跨域分类的分类器。域自适应后,将源域(变换后)和目标域中的训练样本组合在一起进行支持向量机训练,所得的支持向量机分类器将用于对目标域中的未知样本进行测试。
为了确定我们方法的适当参数设置,我们在 { 1 0 − 4 , 1 0 − 3 , … , 1 } \{10^{-4},10^{-3},\dots,1\} {104,103,,1}的网格上改变 α \alpha α β \beta β的值,然后基于五重交叉验证选择最优值。类似地,A-SVM和SVM中的最优参数C基于交叉验证从 { 2 − 5 , 2 − 2 , … , 2 3 } \{2^{-5},2^{-2},\dots,2^3\} {25,22,,23} 中选择。

4.1一个说明性的玩具例子

在这里插入图片描述

如图4(a)所示,我们随机生成三个样本云,每个样本云包含大约400个样本。我们简单地将红色样本视为目标域,同时假设蓝色和绿色样本是两个不同的源域。我们应用我们的方法将两个源域同时映射到目标域,同时去除不需要的噪声信息
结果如图4(b)所示。可以看出,两个源域在一个紧凑的区域中混合到目标域中,这表明了我们提出的方法在减少域自适应中域分布差异方面的有效性。

4.2三域对象基准测试实验

我们首先在从亚马逊、数码单反和网络摄像机三个不同领域收集的视觉域适配基准数据集[21]上测试所提出的方法。该数据集由31种不同的对象类别组成,从自行车、笔记本电脑到书架和键盘,图像总数为4652。
单反相机和网络摄像头领域每类大约有30幅图像,而亚马逊领域每类平均有90幅图像。
或低层特征,我们采用[21]中的SURF特征,所有图像均由800维文字袋(BoW)特征表示。
对于源域样本,我们在网络摄像机/数码单反中随机选择每个类别8幅图像,在亚马逊中选择每个类别20幅图像。同时,我们为每个类别选择3幅图像作为amazon/webcam/dslr的目标域。
这些图像用于域自适应和分类器训练,而目标域中其余未看到的图像用作性能评估的测试集。
我们还使用带RBF核的支持向量机作为分类器,其中测试集上31个对象类别的平均分类精度用作评估指标。每个实验根据5个随机分割重复5次,并报告所有类别的平均分类精度和标准推导。

4.2.1单源域适配

在这里插入图片描述

表1显示了不同方法的性能,其中我们还直接引用了[10,13,21]中的结果。
从结果来看,我们有以下观察结果:

  1. 所有的域自适应方法都比NC方法产生更好的结果,这证实了域自适应的优越性。
  2. 我们的RDALR方法明显优于域自适应度量学习(DAML)、A-SVM和无监督域自适应(UDA)方法,这验证了与文献中最先进的方法相比,低秩重建可以更好地减少域分布的差异。
  3. RDALR明显优于NDAR,因为后者不会去除源域中不需要的噪声信息。

4.2.2多源域适配

在这里插入图片描述
我们使用与单域适应实验相同的设置。然而,不同之处在于,目标域中的样本与来自多个源域的样本相结合,用于训练分类器。
表2显示了多个源域的三种不同组合。一项密切相关的工作是UDA方法,作者试图在源域和目标域之间的格拉斯曼流形上学习一个中间代表子空间。
这表明我们的方法对于多源域自适应是有效的。
图5显示了在多信源域自适应实验中各种参数组合下的性能。
在这里插入图片描述

4.3加州理工学院256实验

加州理工学院256目标域有30607张图像,分为256个对象类别。
Bing源域包含大约120924张弱标记图像,这些图像是使用加州理工学院256的每个文本标签作为搜索关键字进行抓取的。
对于每幅图像,我们从高斯差分(DOG)检测器[19]检测到的关键点中提取SIFT特征,然后将每幅图像表示为5000维BoW特征
在Caltech 256目标域上,我们从每个类别中随机选择{5,10,…,50}个图像作为训练数据,并使用其余图像作为测试数据。
在Bing源域上,我们从每个类别中随机选择10幅图像用于域自适应,并在实验中使用线性支持向量机作为分类器。
在这里插入图片描述
图6显示了在目标域中不同数量的训练图像下对所有方法进行比较的实验结果。

4.4TRECVID MED 2011实验

TRECVID 2011多媒体事件检测(MED)[26]开发数据集包含10704个视频片段,来自17566分钟的视频节目,分为五个事件类和背景类。
这五项活动分别是“玩棋盘把戏”、“喂食动物”、“落鱼”、“婚礼”和“从事木工项目”。
将数据集划分为包含8783个视频的训练集和包含2021视频的测试集。
具体来说,训练集包含大约8273个不属于五个事件中任何一个的背景视频,每个事件的平均训练视频数为100。
在本实验中,我们使用TRECVID MED数据集作为目标域,同时使用从web上抓取的视频作为源域。
给定一个视频剪辑,我们每两秒钟采样一帧。对于每一帧,我们从两种检测器(DoG和Hessian仿射检测器)检测到的关键点中提取128维SIFT特征。
然后,应用k-均值方法将SIFT特征分组为5000个聚类。
最后,我们将视频剪辑中所有采样帧的5000维特征聚合在一起,作为剪辑级特征表示。实验中我们使用线性支持向量机作为分类器。
在TRECVID评估之后,我们使用平均精度(AP)评估每个事件的性能,然后计算五个事件的平均精度(MAP)作为总体评估指标。
在这里插入图片描述
从结果来看,我们有以下观察结果:
(1)虽然NC生成的MAP高于基线,但在“喂食动物”和“落鱼”事件上的表现甚至比基线方法更差。
(2) 与其他方法相比,我们的方法实现了最佳的平均性能。
这证明了我们的方法在视频事件检测方面的巨大潜力。
“在木工项目上工作”事件性能下降的原因可能是意外的大跨域内容差异。
另一个潜在原因是,用作识别模型输入的视觉特征可能不足以(例如,缺少时间和音频特征)捕获可以在不同域上持续的事件属性。


总结

我们引入了一种鲁棒的视觉域自适应方法,以减少源域和目标域之间的分布差异。
其基本思想是将源样本转换为中间表示,这样每个样本都可以由目标样本线性重建。
该方法使用低秩结构捕获源样本的内在相关性,同时使用稀疏结构识别噪声和离群信息,这使得我们的方法在域自适应任务中具有出色的鲁棒性。
我们在广泛的领域适应基准上证明了我们提出的方法的有效性。
在未来,我们计划采用低秩重构作为半监督学习的预处理步骤,以使未标记样本和标记样本的分布更加一致。

References

《Robust Visual Domain Adaptation with Low-Rank Reconstruction》
Computer Vision & Pattern Recognition 2013 IEEE

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值