Larger Norm More Transferable: An Adaptive Feature Norm Approach for Unsupervised Domain Adaptation

AFN学习笔记探讨了无监督域适应中特征范数的作用,提出硬AFN和逐步AFN两种方法,旨在解决目标域特征范数小导致的迁移不稳定问题。通过调整特征范数,提高模型鲁棒性和迁移效果。
摘要由CSDN通过智能技术生成

AFN—Larger Norm More Transferable: An Adaptive Feature Norm Approach for Unsupervised Domain Adaptation学习笔记

tip

文章通过VisDA2017源模型上源域和目标域样本的特征可视化推导了两个假设:错位特征范数假设与较小特征范数假设。在每次迭代中,将特征范数自适应应用于任务特定的特征。而对应两个假设,作者提出两种新的域适应方法:对于AFN的硬变换与逐步变换。硬变换在实验中证明之前的假设错误,而在逐步变换SAFN中,当前的特征范数要接近于上一次迭代的特征二范数+ Δ r \Delta r Δr,以渐进的方式学习具有更大范数的特定任务特征。

文章还提出了针对模型鲁棒性的衡量方法。

Abstract

在这篇文章中,作者从经验上揭示了目标域的不稳定辨别主要源于它相对于源域的小得多的特征范数。为此,作者提出了一种新的无参数自适应特征范数方法。逐步调整两个领域的特征范数到范围较大的值可以导致显著的迁移效果,这意味着那些具有更大范数的特定任务特征更容易迁移。我们的方法成功地统一了标准域和部分域自适应的计算,对负迁移问题具有更强的鲁棒性。

introduce

模型退化的概念已经在数据分析团体中得到很好的认可,但是很少有方法来分析该现象的内在原因。因此,现有的统计差异的方法可能无法精确地描述域迁移,并且着这种差异可能无法保证跨域的安全迁移。 在本文中,作者从一个坚实的经验观察中向揭示模型退化的本质迈出了一步。

image-20201115091223301

该图为源模型上源域和目标域样本的特征可视化。这种技术被广泛用于描述softmax相关目标下的特征嵌入。具体来说,我们将特定于任务的特征设置为二维,并重新训练模型。与t-SNE不同的是,这里的空白空间的大小考虑了两个数据点之间的相似性,这种可视化地图使我们能够解释特征范数的大小以及类间和类内的差异。如图所示,目标样本倾向于在小范数(即低半径)区域中碰撞,该区域容易受到决策边界的微小角度变化的影响,并导致不稳定的辨别。

从目前的观察来看,仍有两种假设的解释:

  1. 错位特征范数假设:源域和目标域之间的域迁移依赖于它们错位的特征范数期望。将两个域的平均特征范数与任意共享标量相匹配,可以产生相似的传输增益。
  2. 较小特征范数假设:对于目标任务来说,域迁移实质上依赖于具有较小范数的过多的小特征信息。尽管没有严格的比对,但调整目标特征远离小范数区域可以实现安全迁移

作者提出了无参数的 Adaptive Feature Norm (AFN) 方法,首先,作者提出了一个简单而有效的统计距离来表征跨域的均值-特征-范数差异。第二,作者设计了硬AFN,通过限制两个域的期望特征范数来接近于一个共享标量,从而弥合域间差异。

这表明,范数对齐的特征可以带来有效的迁移,结果可以使用一个大标量来进一步改善。为了以一种稳定的方式探索一个更充分的大特征范数,我们提出了逐步AFN法,以鼓励对跨域的每个个体样本进行渐进的特征范数扩大。正如逐步AFN揭示的那样,实现成功迁移的关键是在于将目标样本适当地提升到较大范数的区域,而严格的比对是多余的。

作者认识到,那些具有更大范数的特定任务特征意味着具有更多的信息可传递性。作者将较大范数约束放在任务特定的特征上,以促进目标域上更具信息性和可迁移性的计算。

值得注意的是,在部分域适应问题中,负迁移不仅来自共享类别中的无关样本,还来自源域非共享类别中的无关数据

作者的贡献:

凭经验揭示了模型退化的本质,目标域特征相对于源域特征的非常小的范数解释了它们辨别的不稳定。

为部分域适应提出一种新的AFN方法,通过逐步调整两个域的特征范数来适应大范围的标量。

我们成功地统一了普通域适应和部分域适应中的计算方法,并且特征-范数-自适应方式对抵抗负迁移更为鲁棒。

Method

Preliminaries

源域表示为 D s = { ( x i s , y i s ) } i = 1 n s D_s=\{(x_i^s,y_i^s)\}^{n_s}_{i=1} Ds={ (xis,yis)}i=1ns,其中 n s n_s ns表示源域样本的数量,源域拥有类别的个数为 ∣ C s ∣ |C_s| Cs。目标域表示为 D t = { x i t } i = 1 n t D_t=\{x_i^t\}^{n_t}_{i=1} Dt={ xit}i=1nt,其中 n t n_t nt表示目标域未标注样本的数量,目标域拥有类别的个数为 ∣ C t ∣ |C_t| Ct

Vanilla Setting: C s = C t C_s=C_t Cs=Ct

Partial Setting C s ⊃ C t C_s\supset C_t CsCt

L2-preserved Dropout

在这一部分中,作者首先证明了标准的drop操作是L1保持的。由于作者的算法是基于隐藏特征的L2范数计算的,因此我们引入以下L2保持的drop操作来实现我们的目标。

drop是深度神经网络中常用的正则化技术。给定一个d维的向量 x x x,在训练阶段,随机用 a k ∼ P a_k\sim P akP以概率 p p p归零向量中的某一维的数据:

KaTeX parse error: No such environment: equation at position 7: \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲}̲ P(a_k)=\left\{…

为了在评估阶段计算单位函数,输出被进一步缩放一个因子 1 1 − p \frac{1}{1-p} 1p1,即

x ^ k = a k 1 1 − p x k \hat{x}_k=a_k\frac{1}{1-p}x_k x^k=ak1p1xk

因为 x k x_k xk a k a_k ak是独立的,所以在训练和测试阶段都隐含地保留了L1范数:

E [ ∣ x ^ k ∣ ] = E [ ∣ a k 1 q − p x k ∣ ] = 1 1 − p E [ a k ] E [ ∣ x k ∣ ] = E [ ∣ x k ∣ ] \mathbb{E}[|\hat{x}_k|]=\mathbb{E}[|a_k\frac{1}{q-p}x_k|]=\frac{1}{1-p}\mathbb{E}[a_k]\mathbb{E}[|x_k|]=\mathbb{E}[|x_k|] E[x^k]=E[akqp1xk]=1p1

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值