导读: 验证码作为网络安全的第一道屏障,其重要程度不言而喻。当前,卷积神经网络的高速发展使得许多验证码的安全性大大降低,一些新型验证码甚至选择牺牲可用性从而保证安全性。针对对抗样本技术的研究,给验证码领域带来了新的契机,并已应用于验证码反识别当中,为这场旷日持久攻防对抗注入了新的活力。
分享内容包括三大方面:
- 对抗样本介绍
- 极验对抗样本技术探索与应用
- 后续的工作与思考
- -
01 对抗样本介绍
1. 什么是对抗样本
对抗样本 ( Adversarial Examples ) 的概念最早是 Christian Szegedy(克里斯蒂安·塞格迪)在 ICLR2014 (国际学习表征会议)上提出来的,即在数据集中通过故意添加细微的非随机的干扰所形成输入样本,受干扰之后的输入导致模型以高置信度给出了一个错误的输出。
如上图(左)原始图像以57%的置信度判断为“熊猫”,但是加入了微小的干扰之后,在人眼完全看不出差别的情况下,模型却以99%的置信度输出“长臂猿”。
当然,对抗样本不仅仅会出现在图片上,语音、文本上也会出现对抗样本,一段语音上加入微不可察的背景音,可以让语音识别模型输出错误的语音内容;在一段文本上使用近义词替换,也可以构造出对抗样本,误导语言模型。
那么为什么深度神经网络会出现对抗样本呢?
目前获得普遍认可的15年古德菲洛的观点,是深度神经网络的高维线性性导致了对抗样本的出现。
直观的理解,在进行一个高维度的线性运算时,每个维度都做一些微小的改动,会使输出结果发生巨大的变化。如上图,原始的输入是x,线性运算的权重是w,此时将样本分类到类别1的概率是5%,但是我们将输入的每一个维度都改变0.5,此时将样本分类到类别1的概率就变成了88%。
以上是对抗样本的一些简单的定义和目前比较被广泛认可的原因。
2. 为什么需要对抗样本
自从2012年AlexNet诞生以来,深度神经网络迎来了一段爆发式发展,并且广泛地应用于自动驾驶、医疗、金融、安防等领域。可以说深度神经网络模型已经深入我们生活的方方面面。对抗样本对这些模型的威胁是一个客观存在的事实,如果将STOP交通指示牌上加上一些微小的扰动,就会被检测模型识别为减速。行人穿上带有训练好的马赛克图案的衣服,就能在智能监控模型的视线中“隐