内容安全与网络治理7、8章

第七讲    对抗攻击与防御

一、概述

1. 动机

分类器对噪声具有鲁棒性和在“大多数情况下”有效是不够的;

我们想要鲁棒的分类器用来对付用户愚弄分类器的输入;应付来自人类的恶意;

特别适用于垃圾邮件分类、恶意软件检测、网络入侵检测等。

2. Attack AI:

3. 逃逸攻击:

是指攻击者在不改变目标机器学习系统的情况下,通过构造特定输入样本以完成欺骗目标系统的攻击——对抗样本

4. 投毒攻击:攻击者通过篡改训练数据或添加恶意数据来影响模型训练过程,最终降低其在预测阶段的准确性。

二、攻击

1. 想做什么?

通过在原始图像中添加一些人眼无法察觉的扰动,使得模型预测的结果出错。

2. 攻击的损失函数:

模型训练:Ltrainθ=C(y0,ytrue)

  [训练过程中输入x是固定的]

无目标攻击Non-targeted Attack: L(x')=-C(y',ytrue)

  [θ即模型参数是固定的] 损失函数越小,模型输出离ytrue就越远;

有目标攻击 Targeted Attack: Lx'=-C(y',ytrue) + C(y',yfalse)

损失函数越小,模型输出离ytrue越远,离yfalse越近;

约束:d(x0,x')≤ε

 确保输入的改变难以被察觉;

衡量距离的方法:

L2-normdx0,x'=|x0-x'|2=x12+x22+…

L-infinitydx0,x'=|x0-x'|=max⁡{∆x1,∆x2,…}

3. 如何攻击:

就像训练一个神经网络, 但是网络参数 𝜃 𝑥′替代

x*=argmind(x0,x')≤ε Lx'

 [需要优化的是输入x]

梯度下降修改版本:

对于 fix(xt)中两种距离衡量方式的描述:

4. FGSM  快速梯度逐步算法(Fast Gradient Step Method)

          不同的优化方案

x*=argmin[d(x0,x')≤ε] Lx'

              不同的约束      

5. 黑盒与白盒

在前面的攻击中,我们固定网络参数 𝜃 而寻找最优的输入𝑥′;为了攻击,我们需要知道网络参数𝜃;这样的攻击叫白盒攻击(White Box Attack).

如果我们不将模型公布是不是就安全? [绝大多数API是不能提供网络参数的]           答:不是,因为黑盒攻击(Black Box Attack)是可能的。

黑盒攻击:如果你有目标网络的训练数据,训练一个代理网络(proxy network),否则,从目标网络获取输入输出对:

6. 真实世界中的攻击

单像素攻击和一般的攻击:

三、防御

对抗攻击(Adversarial Attack)无法通过正则化(weight regularization), dropout和模型集成(model ensemble)来防御。

1. 被动防御

在不修改模型的情况下找到攻击图像

1). 去噪:

特点:除非对手不知道去噪的存在,否则还是可能受到白盒攻击

2). 随机化

特点:当攻击者不知道随机层存在时,随机层防御的效果最佳;

当攻击者知道有随机层,但由于随机模式众多,不可能考虑所有的模式,防御依然有效果。

3). 梯度掩码/隐藏:

特点:“治标不治本”,模型并没有变得更稳定,只是提高了攻击者弄清楚模型防御弱点的难度;

攻击者也可以自己训练一个模型来制作“对抗样本”,从而实现对模型的破解。

2. 主动防御

训练一个对对抗攻击具有鲁棒性的模型

1). 对抗训练:

特点:这种方法会阻止算法A,但对算法B来说仍然是脆弱的

2). 防御性蒸馏:

特点:使得通过梯度生成的对抗样本的攻击性大大降低,对原始任务的准确性没有大的影响;

蒸馏温度越高,网络的平均梯度越小,生成对抗样本越困难,提升了模型的鲁棒性;

本质上没有解决模型对于对抗样本鲁棒性差的问题,对黑盒攻击则无能为力;

仅适用于基于概率分布的DNN模型,不适用于建立通用的强鲁棒性的DNN模型。

第八讲    视觉内容伪造与检测

一、研究背景

图像内容伪造影响:图像内容篡改造成新闻报道的偏颇易导致社会和公共秩序的不安,对公共安全产生不良影响;

政治抹黑; 军事欺骗;恐怖主义;社交媒体涟漪效应;经济犯罪;网络诈骗

二、 内容伪造方法分类

1.  人脸替换:

       传统的人脸替换技术主要采用计算机图形学的方法实现; 近些年来基于深度学习的人脸替换方法借助大规模训练数据和不断改进的深度学习模型,取得了以假乱真的人脸替换效果,如Deepfake方法和基于GAN的Deepfake方法。

2.  人脸编辑:属性编辑

       韩国高丽大学研究团队提出一种多领域图像翻译的统一框架StarGAN。传统的图像翻译方法只能用于两个图像领域之间的翻译,当需要多个领域之间转换时需要每两个领域之间进行训练,效率很低。因此,该方法提出可以仅训练一个统一的模型用于多个领域之间图像翻译,并在人脸属性编辑和表情编辑上取得很好的效果。

这里人脸图像的不同属性如发色、性别、年龄、肤色以及不同表情如生气、开心和伤心均可以看作图像的不同领域domain。

       香港中文大学研究团队提出一个InterFaceGAN框架,用于识别在训练良好的人脸合成模型的潜在空间中编码的语义,并将其用于语义人脸编辑。

3.  人脸编辑:表情重演

       在2016年CVPR上,德国纽伦堡大学Justus Thies等人在上一页方法基础上,首次提出一种只需要RGB信息进行实时人脸面部表情重演算法Face2Face

       该方法在运行时利用一种密集光度一致性度量方法跟踪输入源视频和目标视频中的人脸表情变化,然后利用快速的形变迁移实现人脸表情的复制重演。

三、伪造检测方法

1. 分类:

2. 眨眼检测:

基于视频中眨眼的检测,这是一种生理信号,在合成的假视频中眨眼并没有很好的表现出来,对于一个健康的成年人来说,一般来说,每一次眨眼之间的间隔是2-10秒,但实际的频率因个人而异,典型的眨眼长度是0.1-0.4秒/眨眼,而篡改方法篡改的单位为帧,没有考虑帧间连续性

3. 交互式人脸活体检测

       是一种在人脸识别过程中验证对象真实生理特征的方法。通过一系列组合动作,如眨眼、张嘴、摇头、点头等,以及人脸关键点定位和追踪技术,活体检测能够判断操作者是真实活体本人还是照片、视频、面具等伪造物。

       原理:人脸关键点定位:利用算法对人脸上的特征点进行精确定位,如眼睛、鼻子、嘴巴等。这些关键点是识别面部特征和动作的重要依据;

       人脸追踪:通过连续捕捉人脸图像,并实时追踪面部的微小变化如光照、角度、表情等。这有助于断是否为真实活体本人的操作;

       动作验证:通过分析用户的眨眼、张嘴、摇头等动作,以及这些动作的时序和空间关系,来判断是否为真人的自然行为;

       深度学习:利用深度学习算法对大量标注过的数据进行训练和学习,使得系统能够自动识别和区分真实活体与伪造物。

4. 人脸伪造检测例子

       基于空域线索的伪造检测Face2Face;

       基于生物特征的检测FakeCatcher;

       有源Deepfakes检测(利用已知的真实视频作为源信息,在此基础上在进行输入媒体的真假判别);

       MesoNet轻量级神经网络:因此其在保障了高性能的同时, 参数数量也少于ResNet-50, XceptionNet等深度神经网络。它同时也证明了眼睛和嘴巴部位的特征在深度伪造视频检测中具有至关重要的作用。

       伪造检测的对抗攻击与防御:基于梯度的对抗攻击(白

盒攻击):上海东华大学与日本综合研究大学院大学Nguyen等人首次实验了几种伪造检测算法应对对抗样本攻击的能力。

       伪造检测数据集:慕尼黑工业大学Rossler 等人在2019年ICCV国际会议上提出一个大规模人脸伪造数据库FaceForensics++、该数据库中包含1000个来自youtube的真实视频,共约50万张伪造人脸图像,并利用Face2Face、FaceSwap、DeepFakes和NeuralTextures 四种算法生成伪造视频;

       南洋理工大学与商汤科技在2020年初发布了一个新的大规模人脸伪造检测数据库DeeperForensics-1.0。该数据库中包含约60,000个视频,大约有1760万帧。该数据库在数据规模、数据真实性方面均处在领先位置。

5. 挑战:

单个工具对付各种攻击的效率将越来越低;

深度学习的方法的可解释性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值