高级实训论文阅读报告
Domain-Shared Group-Sparse Dictionary Learning for Unsupervised Domain Adaptation
1. Main Algorithm
给定一个源数据集合(source data) X S X^{S} XS和标签 y S y^{S} yS, 和一个没有标签数据的目标数据集合(target data) X T X^{T} XT目标是将联合分布 P S ( X S , y S ) P_{S}(X^{S},y^{S}) PS(XS,yS)和 P T ( X T , y T ) P_{T}(X^{T},y^{T}) PT(XT,yT)对齐以进行域适应。
具体而言,目标标签 y T y^{T} yT在无监督域适应中是未知的。为此,提出的DsGsDL模型学习组稀疏表示(group-sparse representations),其中条件分布(conditional distributions)和边缘分布(marginal distributions)在源域和目标域之间对齐。
Conditional Distribution Alignment
我们将条件分布与源域和目标域上的域共享组稀疏性约束对齐。我们首先考虑源域中的公式。
符号规定 source domain
记一个可以分成 K K K个类的labeled source data为 X S = [ X 1 S , X 2 S , . . . , X K S ] X^{S} = [X_{1}^{S},X_{2}^{S},...,X_{K}^{S}] XS=[X1S,X2S,...,XKS], 且 X k S ∈ R p × n k X_{k}^{S} \in \mathbb{R}^{p \times n_{k}} XkS∈Rp×nk 是 X S X^{S} XS的一个子集,分类为 k k k, p p p是每个样本的特征维度 , n k n_{k} nk是类标为 k k k的样本个数。
记源数据集的字典表示为 D S = [ D 1 S , D 2 S , . . . , D K S , D r S ] D^{S} = [D_{1}^{S},D_{2}^{S},...,D_{K}^{S},D_{r}^{S}] DS=[D1S,D2S,...,DKS,DrS],且 D k S ∈ R p × q k D_{k}^{S} \in \mathbb{R}^{p \times q_{k}} DkS∈Rp×qk 是 D S D^{S} DS的特定于类 k k k的子字典, D r S ∈ R p × q r D_{r}^{S} \in \mathbb{R}^{p \times q_{r}} DrS∈Rp×qr是来自源域所有类的剩余(remainder)稀疏系数字典。
q k q_{k} qk和 q r q_{r} qr分别是 D k S D_{k}^{S} DkS和 D r S D_{r}^{S} DrS的数量。
设 α S ∈ R q × n \alpha^{S} \in \mathbb{R}^{q \times n} αS∈Rq×n为源数据的系数。 q q q是 D S D^{S} DS的基数而 n n n是源数据的总数。
对应 D S D^{S} DS,源系数被划分为行向量的矩阵
α S = [ α 1 , : S ; α 2 , : S ; . . . ; α K , : S ; α r , : S ; ] \alpha^{S}=[\alpha_{1,:}^{S};\alpha_{2,:}^{S};...;\alpha_{K,:}^{S};\alpha_{r,:}^{S};] αS=[α1,:S;α2,:S;...;αK,:S;αr,:S;].
另一方面,系数矩阵可以根据标签 y S y^{S} yS由列向量写为
α S = [ α : , 1 S ; α : , 2 S ; . . . ; α : , K S ; ] \alpha^{S}=[\alpha_{:,1}^{S};\alpha_{:,2}^{S};...;\alpha_{:,K}^{S};] αS=[α:,1S;α:,2S;...;α:,KS;].
通过最小化每个子字典(sub-dictionary)的重建错误(reconstruction error) 并限制来自不同类的样本响应不同的子字典来获得 source-domain group sparsity。使用 l 0 l_{0} l0范数来进行group-sparseconstraint,学习 source group-sparse dictionary。
min D S , α S ∑ k = 1 K ∣ ∣ X k S − D k S α k , k S − D r S α r , k S ∣ ∣ F 2 + η ∑ y i ≠ y j n ∣ ∣ α c , ( i ) S ∘ α c , ( j ) S ∣ ∣ 0 + λ ∑ i = 1 n ∣ α ( i ) S ∣ \min_{D^{S},\alpha^{S}}\sum_{k=1}^{K}||X_{k}^{S}-D_{k}^{S}\alpha_{k,k}^{S}-D_{r}^{S}\alpha_{r,k}^{S}||_{F}^{2} +\eta\sum_{y_{i} \neq y_{j}}^{n}||\alpha_{c,(i)}^{S} \circ \alpha_{c,(j)}^{S}||_{0} + \lambda\sum_{i=1}^{n}|\alpha_{(i)}^{S}| DS,αSmink=1∑K∣∣XkS−DkSαk,kS−DrSαr,kS∣∣F2+ηyi̸=yj∑n∣∣αc,(i)S∘αc,(j)S∣∣0