cut out数据增强_强大的数据增强功能：不影响准确度的情况下，防止中毒和后门攻击...-CSDN博客

本文链接：https://blog.csdn.net/weixin_29173777/article/details/112923390

研究表明，数据增强技术如MixUp和CutMix能够有效抵御数据中毒和后门攻击，同时保持模型的验证精度。CutMix在减轻后门攻击的同时，将验证精度提高了9%，而在针对性的中毒攻击中，数据增强方法相比于基于差分隐私的防御，能够在不牺牲验证精度的情况下显著降低攻击成功率。

摘要由CSDN通过智能技术生成

数据中毒和后门攻击是通过恶意修改训练数据来操纵受害者的模型。鉴于这种日益严重的威胁，最近对行业专业人士进行的一项调查显示，私营企业对数据中毒的恐惧加剧。以前的很多防毒措施，在面对越来越强的攻击时，要么失效，要么大大降低了性能。然而，我们发现，强大的数据增强功能，如mixup和CutMix，可以在不牺牲性能的情况下显著降低中毒和后门攻击的威胁。我们进一步验证了这种简单的防御方法对自适应中毒方法的有效性，并与包括流行的不同的私人SGD(DP-SGD)防御在内的基线进行了比较。在后门的情况下，CutMix大大减轻了攻击，同时将验证精度提高了9%。

1.导言

机器学习模型已经在许多领域展示了巨大的成效，包括移动图像处理[1]、定向广告投放[2]和安全服务[3]。越来越多的海量数据集有助于最近这种成功。从业者往往依赖于从网络上搜刮的数据或来自第三方的数据[4，5]，在这种情况下，这些数据的安全性可能会被恶意行为者破坏。数据中毒攻击构成了一种特殊的威胁，攻击者修改受害者的训练数据，以达到有针对性的错误分类或性能降低等目的。基础的数据中毒方案在训练数据中实现了后门触发，而最近的工作也证明了数据中毒方案可以成功攻击在行业规模数据集上训练的深度学习模型[6，7]，而无需进行可感知的修改。这些威胁的严重性得到了行业从业人员的认可，他们最近在一项研究中把中毒列为对其利益最令人担忧的威胁[8]。此外，为较旧的、不那么强大的中毒策略设计的防御措施通过基于特征异常过滤出病毒来工作[9]，但当模型在中毒数据上从头开始训练时就会失效[10，7]。目前，唯一能防止最先进的目标中毒的方法是依靠不同的私有SGD(DP-SGD)，并将导致验证精度的显著下降[7，11，12]。

另一方面，数据增强一直是从业者的福音，有助于在各种任务上获得最先进的性能[13，14]。数据增强可用于许多制度，包括数据稀疏的环境，以提高泛化能力[15]。简单的增强功能包括随机裁剪或水平翻转。最近，出现了更复杂的增强方案，提高了模型的性能：mixup将随机采样的训练数据进行成对的凸组合，并使用相应的标签凸组合。这不仅可以防止记忆损坏的标签，并提供对对抗性例子的鲁棒性，而且还被证明可以提高泛化能力[13]。另一种增强技术cutout则是随机擦除训练数据的补丁[16]，而CutMix则是通过从一幅图像中提取随机补丁，并将这些补丁叠加到其他图像上[17]，将一对随机采样的训练数据组合起来。然后将标签按比例混合到这些补丁的面积上。CutMix增强了模型的鲁棒性，实现了更好的测试精度，并通过鼓励网络从局部视图中正确分类图像来提高本地化能力。最后，MaxUp将一组数据增强技术(基础或复杂)应用于训练数据，并选择所有技术中达到模型性能最差的增强方法和参数[14]。通过针对最 “困难 “的数据增强进行训练，MaxUp能够提高泛化能力，在