本文是对Goodfellow的经典文章《EXPLAINING AND HARNESSING ADVERSARIAL EXAMPLES》的第五节进行公式推导,网上解读很多,不再通篇赘述,第五节不是太好懂,做一些数学推导,帮助理解。
该节的标题是ADVERSARIAL TRAINING OF LINEAR MODELS VERSUS WEIGHT DECAY,对抗训练和权重衰减的比较
1、场景描述
“We can use this case to gain some intuition for how adversarial examples are generated in a simple setting.”
通过一个例子(logistic regression),理解在简单的设置下,对抗样本是如何生成的,文中举了一个二分类问题,给出了两个式子如下:
(1)
(2)
其中,激活函数,
是一个softplus函数,在此推导一下从(1)到(2)的过程
2、概率归一化
二分类问题服从bernoulli分布,概率分布如下:
其中,
为了将两种情况合并,用统一多项式来表示z的系数,令,两种情况中,z的系数+1和-1是一次多项式
在
时候的取值,求解得a=1,b=0,得到:
(3)
在Goodfellow的《深度学习》的6.2.2.2节有类似的计算,只不过y的取值是0和1,可以用上述方法求得书上的结果。
3、损失函数
损失函数是用的交叉熵,并且带入公式(3),有:
(4)
其中,带入(4)有:
,和文中给出的公式一样。
4、对抗训练
在训练过程中一边产生对抗样本,一边把对抗样本作为输入进行训练
(5)
从公式(5)没法看出这句话Note that the sign of the gradient is just -sign(w) ,换另外一个方法来求梯度:
(6)
可以看出对x的梯度与正确的标签y值总是相反的,让原始输入加上这个分量后,优化总是往背离y的方向去进行,文中讲到的-sign(w)应该是这个意思,也只能这样去理解了。
5、L1惩罚项的解释
原文给了如下的公式
(7)
![\epsilon ||\omega||_1](https://i-blog.csdnimg.cn/blog_migrate/074c5f638c47db5f195697d08c91863c.gif)
This means that the penalty can eventually start to disappear if the model learns to make confifident enough predictions that ζ saturates.在训练过程中,为了抵消L1惩罚项的作用,只有让w越来越小(是常数),但是一些比较重要的分量应该相对较大且趋于稳定,其他的不重要的分量越来越小,所以当模型训练稳定的时候,整个L1项就"disappear"了。
This is not guaranteed to happen—in the underfifitting regime, adversarial training will simply worsen underfifitting.
在训练没有收敛(置信度高)的时候,输入的实际上就是一个FGSM方法产生的对抗样本,自然就会对输出产生负面效果,因此就是”worsen underfifitting“。
按照这种说法,这个训练过程应该有比较强烈的抖动,收敛的速度可能会比较慢,但是加入了对抗样本的惩罚项,最终会提升一些模型的鲁棒性。
这与平时用到的L1正则化还是有所区别的,正则化是让参数被限制到较小的范围,出发点还是有所区别。