Generalizing to Unseen Domains via Adversarial Data Augmentation
摘要
- 考虑特征空间靠近源域数据分布上最糟糕的样本(worst-case formulation);
- 挖掘未知域的困难样本,每轮的迭代的加入对抗样本;
- 对于softmax损失,本方法是data-dependent regulzarization,不同于传统向零正则(岭回归和LASSO回归);
- 在数字识别和语义分割任务,本文有效改善了模型在先验未知目标域的表现。
方法
P0表示源域,D(P, Q)是Wasserstein距离,该距离定义在语义空间上(语义空间:Distances in the space of learned representations of high capacity models typically correspond to semantic distances in visual space.)。因此,目标域P满足D(P, P0) ≤ ρ,表示保存了源域的语义表示。
生成的对抗样本近似于,Tikhonov regularized Newton-steps。解上述问题的关键在:covariate shift ρ是未知的,本文训练多个模型,分别对应于不同的距离ρ。本文的迭代方法产生一系列数据集,每一个对应于不同distance level ρ,然后在上面学习模型。最后,在测试阶段,用启发式算法从集合模型中选择一个近似模型。
Wasserstein distance on the semantic space:
即标签相同,距离为二范平方,标签不同则为无穷大。其中z定义为the output of the last hidden layer:
原问题通过Lagrangian放缩可得:
算法流程如下: