苏涛：对抗样本技术在互联网安全领域的应用

本文链接：https://blog.csdn.net/datafun_hoh/article/details/125200809

本文介绍了对抗样本技术在互联网安全，特别是验证码领域的应用。对抗样本的概念始于2014年，用于揭示深度学习模型的脆弱性。通过对验证码的破解方法和几何感知对抗样本生成框架的探讨，展示了如何生成对抗样本并提高图片质量。文章还讨论了对抗样本在语序识别和目标识别中的应用，并展望了基于GAN的AdvGAN技术在未来的潜力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

file

导读： 验证码作为网络安全的第一道屏障，其重要程度不言而喻。当前，卷积神经网络的高速发展使得许多验证码的安全性大大降低，一些新型验证码甚至选择牺牲可用性从而保证安全性。针对对抗样本技术的研究，给验证码领域带来了新的契机，并已应用于验证码反识别当中，为这场旷日持久攻防对抗注入了新的活力。

分享内容包括三大方面：

对抗样本介绍
极验对抗样本技术探索与应用
后续的工作与思考
-

01 对抗样本介绍

1. 什么是对抗样本

file

对抗样本 ( Adversarial Examples ) 的概念最早是 Christian Szegedy（克里斯蒂安·塞格迪）在 ICLR2014 （国际学习表征会议）上提出来的，即在数据集中通过故意添加细微的非随机的干扰所形成输入样本，受干扰之后的输入导致模型以高置信度给出了一个错误的输出。

如上图（左）原始图像以57%的置信度判断为“熊猫”，但是加入了微小的干扰之后，在人眼完全看不出差别的情况下，模型却以99%的置信度输出“长臂猿”。

当然，对抗样本不仅仅会出现在图片上，语音、文本上也会出现对抗样本，一段语音上加入微不可察的背景音，可以让语音识别模型输出错误的语音内容；在一段文本上使用近义词替换，也可以构造出对抗样本，误导语言模型。

那么为什么深度神经网络会出现对抗样本呢？

目前获得普遍认可的15年古德菲洛的观点，是深度神经网络的高维线性性导致了对抗样本的出现。

直观的理解，在进行一个高维度的线性运算时，每个维度都做一些微小的改动，会使输出结果发生巨大的变化。如上图，原始的输入是x，线性运算的权重是w，此时将样本分类到类别1的概率是5%，但是我们将输入的每一个维度都改变0.5，此时将样本分类到类别1的概率就变成了88%。

以上是对抗样本的一些简单的定义和目前比较被广泛认可的原因。

2. 为什么需要对抗样本

file

自从2012年AlexNet诞生以来，深度神经网络迎来了一段爆发式发展，并且广泛地应用于自动驾驶、医疗、金融、安防等领域。可以说深度神经网络模型已经深入我们生活的方方面面。对抗样本对这些模型的威胁是一个客观存在的事实，如果将STOP交通指示牌上加上一些微小的扰动，就会被检测模型识别为减速。行人穿上带有训练好的马赛克图案的衣服，就能在智能监控模型的视线中“隐