近期,CVPR 2021 安全AI挑战者大赛正在进行中 (报名截止3月24日),相关技术解析:
1. CVPR 2021大赛, 安全AI 之防御模型的「白盒对抗攻击」解析
2. 还在刷榜ImageNet?找出模型的脆弱之处更有价值!
报名链接:
https://s.alibaba.com/Challenge
借由此比赛,引起了不少同学对【神经网络鲁棒性】研究的兴趣,本文为该方向最新进展解读,作者来自中国台湾国立交通大学和IBM。
论文链接:https://arxiv.org/abs/2102.11935
1
引言
神经网络的鲁棒性研究一直是一个热门的话题,该论文出自IBM是一篇很硬核关于神经网络鲁棒性分析的理论性文章,作者在论文中的数学证明由浅入深层层递进推。
为了能够清晰的阐述论文中的贡献,我花了很大的力气将文章中没有展开的证明进行了补充,并对文章中的一些推导中一些小错误进行了更正。
论文中最关键的地方就是作者提出了一个基于理论实证的正则化损失函数,如果能把它看懂并为我们所用的话,应该是一个很好的涨点利器。
2
预备知识
为了能够更加清晰的介绍论文中的公式推导和核心思想,需要对论文中涉及到的预备知识和符号加以说明,具体的符号形式如下所示,相关的介绍会在z 之后证明中加以说明。
假定有一个 层的神经网络,其输入向量为 ,输出的类别是为 ,则有如下公式:
其中, 为包含了神经网络中所有的权重的集合,即 , 为非负单调激活函数(ReLU和Sigmoid)。神经网络输出的第 个元素被记作 ,输出中 和 两个类别的差值表示为。
在无对抗扰动的情况下,神经网络第 层( )的输出表示为 ,其中