【论文笔记】用于无监督领域自适应的图卷积对抗网络
GCAN: Graph Convolutional Adversarial Network for Unsupervised Domain Adaptation
摘要
连接源域和目标域的三种类型可利用信息
- 数据结构
- 域标签
- 类标签
提出:用于无监督领域自适应的端到端图卷积对抗网络
第一个在无监督领域自适应的深度模型中联合建模这三种信息的工作。
设计了三种有效对齐机制,学习域不变表示和语义表示,减少域自适应的域差异
介绍
深度学习所需的大量标注数据难以获得——利用已有标注数据——存在数据集偏差和域漂移现象——大规模数据集训练的预测模型难以很好地推广到新的数据集和任务(受不同领域数据分布的影响)——领域自适应(在训练和测试分布之间存在漂移的情况下,学习一个鉴别分类器或其他预测器)
领域自适应
主要技术困难:如何正式减少不同领域的分布差异
领域自适应方法分类:
基于实例的领域自适应
基于参数的领域自适应
基于特征的领域自适应
差异度量
MMD
对抗领域适应方法
三类信息
数据结构
反映了数据集的固有属性,包括边际或条件数据分布、数据统计信息、几何数据结构等。
域标签
用于对抗性领域自适应方法,帮助训练域分类器建模源域和目标域全局分布
类标签
特别是目标伪标签,通常采用强制语义对齐,保证来自具有相同类标签的不同域的样本将被映射到特征空间附近。
总结:三种类型信息都有助于减少不同方面的领域差异,相互补充和增强领域自适应
以前的方法
深度对抗领域自适应,只强制全局域统计的对齐,类别的关键语义类标签信息可能会丢失,不能保证来自具有相同类标签的不同域的样本将被映射到特征空间的附近。(对齐错了)
语义迁移方法,将类标签信息传播到深度对抗性自适应网络中,以解决上述局限性。
传统的数据结构相关方法,在保持原始空间中的数据属性的同时,减少域之间的分布差异。难以建模和将数据结构信息有效集成到现有的深度网络中
结构感知对齐
利用源域和目标域的数据结构,使结构最小化结构差异,减少域偏移。
建模深度网络下的数据结构
(1)利用样本的CNN特征,基于样本结构相似性,构造一个密集连接的实例图。每个节点对应于一个样本的CNN特征(由一个标准的卷积网络提取,如AlexNet)
(2)在实例图上应用图卷积网络(GCN),使结构信息沿加权图边传播,可以从设计的网络中学习到。
域对齐
挖掘来自不同域的全局域统计信息以相互匹配。利用由对抗性相似度损失来度量的域统计量的散度来指导特征提取器学习域不变表示。
类质心对齐
约束来自不同域的类质心,随着迭代的增加而靠近,以便学习的表示可以用类标签信息进行编码。因此,具有相同类别标签的样本可以嵌入到特征空间附近。模型通过进行类对齐损失来实现该想法,并采用移动质心策略来抑制虚假伪标签的影响。
通过对这三种对齐机制的建模,深度网络可以生成域不变的和可区分的语义表示。
相关工作
领域自适应
三种方法
分布度量
MMD
对抗性目标
图神经网络
在非结构数据上使用深度学习框架,卷积网络在非欧几里得图的自然推广
GNN首次提出是作为一种可训练的循环消息传递
在图上构造GCN的两个流:
光谱透视图,其中图卷积的局域性以光谱分析的形式被考虑。
空间透视图,其中卷积滤波器直接应用于图节点及其邻居
本文工作是基于光谱透视线,模型利用GCN在密集连接的实例图上操作,在统一的深度网络中的数据结构信息与域标签和类标签信息共同补充。
图卷积对抗网络
图卷积对抗网络
损失函数
通过最小化下面的总体目标函数来训练标签预测函数f
L ( X S , Y S , X T ) = L C ( X S , Y S ) + λ L D A ( X S , X T ) + γ L C A ( X S , Y S , X T ) + η L T \begin{aligned}\mathcal{L}\left(\mathcal{X}_{S},\mathcal{Y}_{S},\mathcal{X}_{T}\right)&=\mathcal{L}_{C}\left(\mathcal{X}_{S}, \mathcal{Y}_{S}\right)+\lambda \mathcal{L}_{D A}\left(\mathcal{X}_{S}, \mathcal{X}_{T}\right) \\&+\gamma \mathcal{L}_{C A}\left(\mathcal{X}_{S}, \mathcal{Y}_{S}, \mathcal{X}_{T}\right)+\eta \mathcal{L}_{T}\end{aligned} L(XS,YS,XT)=LC(XS,YS)+λLDA(XS,XT)+γLCA(XS,YS,XT)+ηLT
分类损失函数: L C ( X S , Y S ) = E ( x , y ) ∼ D S [ J ( f ( x ) , y ) ] , J ( ⋅ , ⋅ ) \mathcal{L_C}(\mathcal{X_S,Y_S} ) = \mathbb{E}_{(x,y)\sim D_S} \left [ J(f(x),y) \right ] , J(\cdot, \cdot) LC(XS,YS