Generalist: Decoupling Natural and Robust Generalization

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-JI7Gb5rr-1680827823923)(null)]

通过原始图片在训练过程出的模型会受到敌对样本的干扰,这种问题虽然通过对抗训练增加了抵抗敌对样本的鲁棒性,但也损失了一部分自然泛化的能力。为了解决这个问题,我们将自然泛化和鲁棒泛化与联合训练解耦,并为每个训练制定不同的训练策略。具体来说,我们没有将这两个最小化泛化错误的全局损失,而是提出了一个称为Generalist的双专家框架,在这个框架中,我们同时用任务感知策略训练基础学习者,以便他们能够专注于自己的领域。在训练过程中,按间隔收集并组合基础学习者的参数,形成一个全局学习者。然后将全局学习者作为初始化参数分配给基础学习者。从理论上讲,我们证明了一旦基础学习者受过良好的训练,Generalist的风险就会降低。大量的实验验证了Generalist在自然例子上实现高精度的适用性,同时对对抗性的例子保持相当大的鲁棒性。

问题

通过原始图片在训练过程出的模型会受到敌对样本的干扰,这种问题虽然通过对抗训练增加了抵抗敌对样本的鲁棒性,但也损失了一部分自然泛化的能力。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-SnKlFfr1-1680827817099)(null)]

当最坏情况下扰动图像的误差减小时,未扰动图像的误差存在不期望的增加

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-yH8yos2T-1680827819571)(null)]

解决方法

之前的一些工作专注于:例如合并额外的标记/未标记数据或放松扰动的大小,以产生合适的对抗性例子,以便更好的优化。对于自然泛化和鲁棒泛化之间的权衡,以前的方法都在联合训练框架中努力寻找一个能够满足这两个目标的最佳点。

我们的方法:这些工作都集中在用于训练的数据上,而我们建议从本文中的训练范式的角度来解决权衡问题。

我们将对抗性训练的目标函数解耦为两个子任务:一个用于自然示例分类,另一个用于对抗性示例分类。对于每个子任务,我们在具有特定任务配置的自然/对抗性数据集上训练基础学习者,同时共享相同的模型架构。在训练过程中,收集并组合基础学习者的参数,形成一个全局学习者,然后将其作为初始化参数分配给基础学习者进行继续训练。

我们提出的Generalist充分利用特定任务的信息来单独训练基础学习者,使每个子任务得到更好地解决。

理论上,我们证明,如果基础学习者受过良好的训练,最终的全局学习者保证有一个较低的风险。对于每个任务,训练策略的每一个细节(如优化方案)都可以完全定制,因此每个基础学习者可以更好地探索其领域的最优轨迹,而全局学习者可以充分利用所有基础学习者的优点。

相关工作

Standard Adversarial Training

[论文笔记] Projected Gradient Descent (PGD) - 知乎 (zhihu.com)

Multi-Task Learning and Meta-Initialization

收藏|浅谈多任务学习(Multi-task Learning) - 知乎 (zhihu.com)

Generalist框架

优化基础学习者θa在其分配的数据分布Da中的参数和将全局学习者θg的参数分配给所有基础学习者。由于我们只关注于识别自然的例子和敌对的例子,所以任务的总数W被设置为两个。

Task-aware Base Learners

具体来说,在这个过程中,基础学习者fθn和fθr被分配不同的子问题,只需要访问自己的数据分布。

请注意,两个基础学习者的工作方式是互补的,这意味着参数的更新在基础学习者之间是独立的,而全局学习者总是收集两个基础学习者的参数。损失函数也可以是特定于任务的,并分别应用于每个基础学习者。在实践中,我们选择交叉熵作为ℓ1和ℓ2的替代损失,因为它很简单,但足够好。

所以每个基础学习者的子问题被定义为:

Initialization from the Global Learner

在最初的训练期间,基础学习者的工具性较少,因为他们没有得到充分的学习。

直接初始化基础学习者的参数可能会误导训练过程,并在混合时进一步积累偏差。

因此,我们从一开始就保留了t’epoch来完全训练基础学习者,而只是通过指数移动平均优化来聚合基础学习者的搜索轨迹上的状态。这时并不会把得到的全局学习者的参数赋值给基础学习者。

然后,当每个基础学习者在其领域得到良好的训练时,他们从每个c个时代的全局学习者的参数中学习一个初始化。

把全局学习者的参数分别赋给两个基础学习者之后,基础学习者包含不属于自己任务的参数信息,提高泛化能力。
在这里插入图片描述

理论分析

细节请看原文附录推导

考虑一种算法为两个基学习者生成状态θ1和θ2的轨迹,两个基学习者在其相应的损失函数ℓ1,ℓ2上的遗憾为

在这里插入图片描述

上述不等式表明,任何有利于减少每个任务误差的策略,使RT更小,都会降低全局学习者的误差界。

结果

消融

每个学习者定制策略

如上所述,与标准的联合训练框架相比,Generalist的主要优势之一是,每个基础学习者都能够自由地为自己的任务定制相应的策略,而不是对所有任务使用相同的策略。在这部分中,我们研究了Generalist在与不同的技术合作时是否表现得更好。

Weight Averaging

这种技术在联合训练框架中并不能同时提高准确性和鲁棒性。

结果如图4 (a).所示我们在NT(NT_only)或AT(AT_only)或两者(NT+AT)中使用WA。总体而言,结果证实了两个基础学习者利用WA后,全局学习者的表现可以进一步提高。

NT_only的标准测试精度继续提高,但以牺牲防御攻击能力的下降为代价。一个可能的原因是,WA含蓄地控制了基础学习者的学习速度。事实上,在其子任务中,有学习WA的基础学习者比没有学习WA的基础学习者要快得多,这意味着快学习者与慢学习者不一致。

Different Optimizers

在这里插入图片描述

总结

在本文中,我们提出了一个名为多面手的双专家框架来改进自然泛化和鲁棒泛化之间的权衡问题,它训练两个负责互补领域的基础学习者,并收集他们的参数来构建一个全局学习者。通过与联合训练范式的解耦,每个基础学习者都可以使用基于数据分布的定制策略。我们提供了理论分析来证明任务感知策略的有效性,并广泛的实验表明,多才手更好地减轻了准确性和鲁棒性的权衡。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值