黑客文化与网络安全结题报告《Cat or Dog:从AI安全到生成对抗网络》

Cat or Dog:从AI安全到生成对抗网络

一、引言

任何计算机工程的发展都离不开信息,保护信息的安全是重中之重。随着信息技术的发展,网络攻击、数据泄露等问题给人们的生活带来了前所未有的挑战。人工智能作为当今最热门的研究、应用方向,其中也同样含有大量的安全问题。一只猫的图片,可通过添加少量的噪声而被识别成狗。什么是AI安全?什么是对抗攻击?如何根据其原理设计应用?本文梳理了AI安全的五大要素及不同应用,将从多个角度深入剖析上述问题,旨在为AI安全提供入门的技术分析。

二、AI安全简介

AI安全,主要是指保护AI系统免受未经授权的访问、攻击和滥用的能力。一般包括保护算法、模型、数据、硬件、软件等多个方面。当今的AI安全通常涉及四个性能,分别是保密性、完整性、鲁棒性、隐私性。保密性主要指涉及的数据与模型信息不会泄露给没有授权的人。完整性通常指算法模型、数据、基础设施和产品不被恶意植入篡改替换伪造。鲁棒性一般指能同时抵御复杂的环境条件和非正常的恶意干扰。隐私性AI模型在使用过程中能够保护数据主体的数据隐私。针对上述几种性能的攻击层出不穷,如对抗样本、模型窃取等,也相应的产生了一些防御手段。我国AI安全的发展任重而道远。

三、AI安全的多个方面

1.算法与模型安全

算法与模型的安全,是人工智能安全中最根本、最重要的部分。人工智能的算法是具有脆弱性的。以深度学习为代表的第二代人工智能技术中,如果数据样本充足,那么在应用场景下的效率是极高的。但是,计算机和人的视觉或者听觉是完全不同的,两张一模一样的照片,如果对其中一个加入一点噪声,可能识别会出现巨大的差距。

算法是模型的基础。在脆弱的算法上建立的模型,同样具有该性质。现有的深度学习模型主要存在完整性威胁、鲁棒性威胁、可解释性不足三大安全问题。完整性威胁是指模型可能会遭受数据投毒攻击,即训练时在正常训练集中加入少量的毒化数据,破坏模型完整性,操纵AI判断结果。鲁棒性威胁指模型可能会遭到对抗样本攻击,即在模型测试阶段,向输入样本加入对抗扰动。对抗样本攻击根据不同的威胁模型,又可以细分为白盒攻击、黑盒攻击等。可解释性不足是由于深度学习本身导致的,其模型是一个黑箱,参数量巨大,结构复杂,同样可能会出现预期之外的结果。

针对模型安全,可以采用对抗训练、输入预处理、特异性防御算法等防御手段。

2.数据与隐私安全

数据与隐私安全是非常重要的一项。AI系统需要大量的数据来进行训练和优化,而这些数据往往包含着一些敏感信息。如果这些数据被泄露或滥用,可能会导致严重的后果。AI数据安全是指通过构造特定数据集,结合模型预测的结果来获取深度学习模型的参数或数据,通常分为模型参数泄露和训练数据泄露。模型参数泄露攻击方法包括方程求解攻击、基于Meta-model的模型窃取、模型替代攻击。训练数据泄露包括输出向量泄露和梯度更新泄露,方法包括成员推断攻击、模型逆向攻击、分布式模型梯度攻击。

针对数据安全,可以采用模型结构防御、信息混淆防御、查询空置防御等防御技术。

3.系统安全

系统安全是AI安全中最底层的一项。一般AI系统会由软硬件系统组成,这些系统需要相互协作才能正常运行。下面将从软件和硬件两个方面分别展开讨论。

(1) 硬件设备安全问题

攻击者直接接触硬件设备,添加电路层面扰动,伪造数据。导致模型误判、指令跳转、系统奔溃等严重后果,每次推导后被正确数据覆盖,攻击隐蔽且难以检测。

攻击者测量硬件系统的电磁、功能泄露,获取模型粗粒度超参数,为模型窃取提供先验知识。模型不同层、激活函数等运行过程中的泄露信息存在固定模式,或者利用旁路分析方法恢复模型超参数。

(2) 系统与软件安全问题

AI系统与软件安全漏洞导致关键数据篡改、模型误判、系统崩溃或被劫持控制流等严重后果。

代码注入攻击、控制流劫持攻击、数据流攻击等多维度攻击层出不穷,并在新环境下不断演化。同时,AI系统模块众多、结构复杂、在可扩展性方面存在不足,复杂场景下的攻击检测和安全威胁发现存在较大难题。

针对系统安全,在硬件方面可以采用关键数据加密、硬件故障检测等防御手段,在软件方面可以采用权限分级管理、操作行为可溯源等手段。

四、对抗攻击与对抗防御

1.概述

深度学习算法中存在一种安全隐患:攻击者可以通过给良性样本添加特定噪声而轻易地欺骗深度学习模型,并且通常不会被人发现。攻击者利用人的视觉/听觉无法感知的扰动,足以使正常训练的模型输出置信度很高的错误预测,这种现象称为对抗攻击。

对抗攻击(Adversarial Attack)是机器学习与计算机安全的结合,根据目的网络最终得到的分类结果是否是攻击者预先设计好的,可以分为目标攻击和非目标攻击。根据威胁模型可以将现有的对抗性攻击分为白盒、灰盒和黑盒攻击,主要差异在于攻击者是否知道模型的结构。在白盒攻击的威胁模型中,假定攻击者具有关于其目标模型的完整知识,包括模型体系结构和参数。因此攻击者可以通过任何方式直接在目标模型上制作对抗性样本。在灰盒威胁模型中,攻击者了解的信息仅限于目标模型的结构和查询访问的权限。在黑盒威胁模型中,攻击者只能依赖查询访问的返回结果来生成对抗样本。

对抗防御(Adversarial Defense)是一种针对恶意攻击的防御技术,旨在保护计算机系统或网络免受对抗性攻击的威胁。其目标是尽可能地减少对抗性攻击对计算机系统的影响。这种技术通过使用多种技术和方法来增强计算机系统的鲁棒性和安全性。目前主流的对抗防御技术有对抗训练、随机化、去噪以及基于贝叶斯模型的防御等。

研究对抗攻击和对抗防御的意义如下:

1. 能让机器学习模型处理大规模数据;

2. 以“计算机速度”处理攻击威胁;

3. 不依赖数据的明显特征,发现实际应用中的各种内在威胁;

4. 阻止已知和未知的恶意软件;

5. 阻止恶意软件的提前执行;

6. 优化模型,让分类模型达到更加高的分类准确率和更加低的错误率。

2.常用的对抗攻击方法

L-BFGS攻击

在探索深度学习可解释性的研究中,Szegedy等人证明了深度学习对加入特定扰动的输入样本表现出极强的脆弱性,并由此发现了对抗样本的存在,提出了第一个针对深度学习的对抗攻击方案L-BFGS,L-BFGS攻击的定义如公式所示。

3.常用的对抗防御方法

对抗训练

对抗训练的基本思想就是在网络训练的过程中,不断生成并且学习对抗样本。常见的对抗样本生成算法是已知的,训练数据集也是已知的,那么可以通过常见的一些对抗样本工具箱,比如AdvBox或者FoolBox,在训练数据的基础上对抗样本后让深度学习模型重新学习,让它认识这些常见的对抗样本,这样新生成的深度学习模型就具有了一定的识别对抗样本的能力。

 

 

随机化

许多防御措施都采用随机化来减轻输入/特征域中对抗性扰动的影响,因为从直觉上看,DNN总是对随机扰动具有鲁棒性。基于随机化的防御方法试图将对抗性效应随机化为随机性效应,当然这对大多数DNN而言都不是问题。在黑盒攻击和灰盒攻击的设置下,基于随机化的防御获得了不错的性能,但是在白盒攻击下,EoT方法能够通过在攻击过程中考虑随机过程来破坏大多数防御方法。

基于贝叶斯模型的防御

Liu等将贝叶斯神经网络(Bayesian neural network,BNN)与对抗训练相结合,从而学习在对抗攻击下的最优模型的权重分布。具体来说,作者假设网络中的所有权重都是随机的,并使用BNN理论中常用的技术训练网络。通过对抗性训练,这种随机的BNN,与RSE和CIFAR10以及STL10和ImageNet143的常见的对抗性训练相比,显著提高了对抗鲁棒性。Schott等建议基于贝叶斯模型对输入数据的分类条件分布进行建模,并将新样本分类为相应类别条件模型产生最高似然性的类别。他们将模型命名为Analysis by Synthesis model(ABS)。ABS被称为MNIST数据集上针对L0、I2和L∞。攻击的第一个健壮模型。ABS在抵抗L0和L2攻击方面达到了最先进的性能,但在L∞的攻击下其性能要比PGD对抗训练的模型稍差。

五、对抗学习及其应用(GAN)

1.从对抗攻击到对抗学习

对抗攻击的危害很大,尤其是对于无人驾驶、医疗诊断、金融分析这些安全至关重要的领域。对抗样本无疑制约着深度学习技术的进一步应用,因此,提升模型抵御对抗样本的能力变得十分重要,也产生了对应的对抗防御方法。综合对抗攻击、对抗防御的领域称之为对抗学习。对抗学习是一个机器学习与计算机安全的交叉领域,旨在于在恶意环境下(比如在对抗样本的存在的环境下)给机器学习技术提供安全保障。

2.常见的对抗学习应用场景

深度神经网络应用到对安全有严格要求的环境中时,处理对抗样本造成的脆弱性就成为了一个重要的任务。深度学习算法并不单独具有对对抗样本的脆弱性,而是相关模型普遍都可能具有该缺陷,这种缺陷在对于安全性要求较高的行业中就显得尤为重要。因此,对抗学习可以被广泛地运用在医疗、金融、安防和自动驾驶等行业。

应用场景1:自动驾驶

自动驾驶是未来智能交通的发展方向,但在其安全性获得完全检验之前,人们还难以信任这种复杂的技术。虽然许多车企、科技公司已经在这一领域进行了许多实验,但对抗样本技术对于自动驾驶仍然是一个巨大的挑战。例如对抗攻击下的图片中的行人在模型的面前隐身,对抗样本使得模型“无视”路障,腾讯科恩实验室的研究人员们就找到了几种使用「物理攻击」的方式欺骗特斯拉自动驾驶系统的方法。

利用 AI 对抗样本生成特定图像并进行干扰时,特斯拉的 Autopilot 系统输出了「错误」的识别结果,导致车辆雨刷启动;

在道路的特定位置贴上若干个对抗样本贴纸,可以让处在自动驾驶模式的汽车并入反向车道;

在Autopilot系统中,通过游戏手柄对车辆行驶方向进行控制。

应用场景2:金融欺诈

深度学习算法也已经应用到了金融机构中,用于金融欺诈等行为的识别。研究人员发现了深度学习模型的新风险:通过制造具有欺骗性的数据结构,可以误导模型做出错误预测。

通过对交易网络的一小部分进行改变,就可以改变机器的行为。例如,就金融应用而言,将钱转到其他地方,就可以改变模型使其做出错误的预测。

3.生成对抗网络(GAN)

GAN,即Generative Adversarial Network,是非监督学习的一种方法,最早由Ian Goodfellow于2014年提出。GAN由一个生成网络和一个鉴别网络组成。生成网络从潜在空间中随机取样作为输入,其输出结果需要尽量模仿训练集中的真实样本。判别网络的输入则为真实样本或生成网络的输出,其目的是将生成网络的输出从真实样本中尽可能分辨出来。而生成网络则要尽可能地欺骗判别网络。两个网络相互对抗、不断调整参数,最终目的是使判别网络无法判断生成网络的输出结果是否真实。

当鉴别器拒绝由生成器生成的一个样本时,生成器将学习更多关于好的样本的内容。生成器每次向鉴别器发送样本,鉴别器都会向它返回一个信号,告诉它与真实样本有多接近。鉴别器暴露出生成器生成的样本与真实样本有多接近的信息,以及它该如何调整使其生成的样本更接近真实样本。随着生成器根据鉴别器返回的信息不断生成样本,在理想情况下,生成器最终生成出的样本会和真实样本相一致。

GAN可应用于图像生成、风格迁移、图像修复等多种场景,市场十分广阔。

4.常用的生成对抗网络

DCGAN

全称是 Deep Convolution Generative Adversarial Networks(深度卷积生成对抗网络),是 Alec Radfor 等人于2015年提出的一种模型。该模型在 Original GAN 的理论基础上,开创性地 将 CNN 和 GAN 相结合 以 实现对图像的处理,并提出了一系列对网络结构的限制以提高网络的稳定性。

DCGAN 的网络结构 在之后的各种改进 GAN 中得到了广泛的沿用,可以说是当今各类改进 GAN 的前身。

WGAN

与DCGAN不同,WGAN主要从损失函数的角度对GAN做了改进,损失函数改进之后的WGAN即使在全链接层上也能得到很好的表现结果,WGAN对GAN的改进主要有:

◆  判别器最后一层去掉sigmoid

◆  生成器和判别器的loss不取log

◆  对更新后的权重强制截断到一定范围内,比如[-0.01,0.01],以满足论文中提到的lipschitz连续性条件。

◆  论文中也推荐使用SGD, RMSprop等优化器,不要基于使用动量的优化算法,比如adam,但是就我目前来说,训练GAN时,我还是adam用的多一些。

六、总结与展望

近些年,AI安全越来越受到人们的关注。通过上述的大量资料,我们看到了AI整个架构中存在的问题。除了利用AI来构建各种恶意检测、攻击识别系统外,黑客也可能利用AI达到更精准的攻击。在关键的AI应用场景上,AI自身的安全性变得前所未有的重要,极需要构建一个不会被外界干扰而影响判断的健壮AI系统。

最后,我给出几点希望:

- AI系统的设计和开发必须考虑到安全性。这意味着在设计过程中就需要考虑潜在的安全威胁,并采取相应的措施来保护系统免受攻击。

- AI系统的部署和使用也需要严格的安全措施。这包括对系统进行定期的安全审计、实施访问控制、加密数据传输等措施。

- 建立一个全球性的AI安全标准和规范。这将有助于确保不同国家和组织之间的合作和协调,以共同应对AI安全问题。

展望未来,我们可以期待AI安全技术的发展和进步。例如,基于区块链技术的安全解决方案已经开始出现,并且正在得到越来越多的应用。此外,人工智能安全领域的研究也在不断深入,新的技术和方法将不断涌现。

Radford, A., Metz, L., & Chintala, S. (2015). Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks. CoRR, abs/1511.06434.

Yuan, X., He, P., Zhu, Q., & Li, X. (2017). Adversarial Examples: Attacks and Defenses for Deep Learning. IEEE Transactions on Neural Networks and Learning Systems, 30, 2805-2824.

Goodfellow I, Pouget-Abadie J, Mirza M, et al. Generative adversarial networks[J]. Communications of the ACM, 2020, 63(11): 139-144.

部分资料参考自网络

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值