![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
模型安全
文章平均质量分 87
MezereonXP
A developer ,love life, love saber
展开
-
将恶意软件嵌入到神经网络中
将恶意软件嵌入到神经网络中这次介绍一篇名为“EvilModel: Hiding Malware Inside of Neural Network Models ”的文章。该文章主要描述了一种隐式的传播恶意软件的方法,通过对神经网络的权重进行修改实现恶意软件的传播。本质上,是选取模型中的某些“冗余”的层,对其中的神经元的权重进行替换,对于每一个权重,替换其最后的3位比特位作为恶意软件的某个3个比特,进而实现恶意软件的隐式传输。这里所提及的冗余,其实是通过测试,查看对正确率的影响程度,选择那些对正确率原创 2021-07-30 15:38:04 · 519 阅读 · 0 评论 -
利用超球嵌入来增强对抗训练
利用超球嵌入来增强对抗训练这次介绍一篇NeurIPS2020的工作,“Boosting Adversarial Training with Hypersphere Embedding”,一作是清华的Tianyu Pang。该工作主要是引入了一种技术,称之为Hypersphere Embedding,本文将其称作超球嵌入。该方法和现有的一些对抗训练的变种是正交的,即可以互相融合提升效果。这里指的对抗训练的变种有 ALP, TRADE 等对抗训练框架首先,如下图所示,我们列出来AT以及其变种,用原创 2021-07-08 15:13:00 · 468 阅读 · 0 评论 -
联邦学习下的数据逆向攻击 -- GradInversion
文章目录关于联邦学习基于梯度的数据还原批量标签恢复 (Batch Label Restoration)真实性正则化(Fidelity/Realism Regularization)组一致性正则化(Group Consistency Regularization)最终的更新细节实验分析结论这一次给大家介绍一个攻击,是NVIDIA的一个工作,最近被CVPR2021所收取。“See through Gradients: Image Batch Recovery via GradInversion”之所以原创 2021-05-12 16:16:31 · 2497 阅读 · 3 评论 -
使用少量数据去除神经网络中的水印 -- WILD
文章目录使用少量数据去除神经网络中的水印 -- WILD简介WILD框架实验评估使用少量数据去除神经网络中的水印 – WILD简介这次介绍一篇文章, 名为Removing Backdoor-Based Watermarks in Neural Networks with Limited Data。针对现有的利用后门攻击在神经网络中构建水印的工作,该文章主要是提出了一个去除水印的框架。关于后门攻击,你可以查看我的这篇文章首先我们来看一下水印是怎么来的,如下图所示首先,我们通过对训练数据进行原创 2021-04-29 17:40:25 · 654 阅读 · 1 评论 -
通过人工大脑刺激来检测神经网络中的后门
文章目录介绍新的方法REASR分数实验评估结论介绍这一次主要给大家介绍一篇CCS19的工作,“ABS: Scanning Neural Networks for Back-doors by Artificial Brain Stimulation”。在深度学习之中,存在着一种后门攻击(backdoor attack),它包括两个部分:被植入后门的深度网络(trojaned model, model with backdoors)触发后门的触发器 (trigger)一旦我们在输入上添加对应的触原创 2021-04-24 19:53:58 · 1325 阅读 · 5 评论 -
语义上的对抗样本 -- SemanticAdv
语义上的对抗样本 – SemanticAdv这次介绍的是ECCV2020的一篇文章,SemanticAdv: Generating Adversarial Examples via Attribute-conditioned Image Editing介绍我们知道,对抗样本一直以来对深度网络来说是一个不小的威胁,通过一个微小的、人眼不可区分的扰动,最终使得神经网络的结果出错(当然,不限于分类任务)。有关于对抗样本,可以查看我的这篇文章形式化来说,可以写成f(x+δ)=f(xadv)≠f(x)原创 2021-04-15 17:53:00 · 957 阅读 · 0 评论 -
如何利用对抗样本来提升精度
文章目录介绍对抗训练的影响加一个BN试一试实验评估结论介绍这次介绍一篇CVPR2020的工作,Adversarial Examples Improve Image Recognition,该工作主要揭示了对抗样本对图像分类的促进作用。关于对抗样本,可以查看我的这篇文章对抗训练的影响对抗样本一直以来大家对其印象都不好,使分类器出错,难以进行防御,白盒攻击下的防御大多数难以真正完全防御住。先来看看目前相对比较有效的防御,即对抗训练,如下图所示:灰色代表着对抗训练,橘色代表对抗训练加上参数调优原创 2021-04-08 21:15:57 · 928 阅读 · 1 评论 -
暴力的黑盒对抗样本攻击 -- ZOO
文章目录介绍强行计算梯度结果分析介绍这次来介绍一篇CCS Workshop 2017的工作,“ZOO: Zeroth Order Optimization Based Black-box Attacks to Deep Neural Networks without Training Substitute Models”这是一个黑盒的对抗样本攻击,如上图所示,攻击者只能进行输入,并且获得置信度的输出,不能对模型进行反向传播。有关于白盒的对抗样本攻击,可以查看我这篇文章不能反向传播,会导致对抗原创 2021-04-06 20:29:33 · 2904 阅读 · 0 评论 -
如何躲避针对后门攻击的检测
介绍这次介绍的是一篇来自于EuroS&P-2020的文章,“Bypassing Backdoor Detection Algorithms in Deep Learning”作者中有比较著名的大佬Reza Shokri。该工作主要针对Wang等人提出来的Neural Cleanse。关于后门攻击,您可以参考我这篇文章。关于Neural Cleanse,您可以参考我这篇文章。开门见山该工作主要是提出一种攻击,用来躲避后门检测的,针对Wang等人提出来的神经元裁剪方法,给出了一种攻击策略原创 2021-04-03 21:00:57 · 474 阅读 · 0 评论 -
针对后门攻击的防御手段之Neural Cleanse
介绍后门攻击是一类针对深度学习的攻击,其主要组成部分有两个:触发器带后门的模型当模型接收到带有触发器的输入,便会导致对应的触发结果。并且,一但没有触发器,模型的表现和正常的模型相似。关于后门攻击更多的介绍,可以参考我的这篇文章。今天主要讲的是来自于2019年SP的一篇文章“Neural Cleanse: Identifying and Mitigating Backdoor Attacks in Neural Networks”作者基于一个重要的假设:“带有后门的模型所对应的触发器,要比原创 2021-03-31 20:52:04 · 1644 阅读 · 8 评论 -
如何用一束激光欺骗神经网络
来自于CVPR2021的一篇文章"Adversarial Laser Beam: Effective Physical-World Attack to DNNs in a Blink"这一个在物理世界的对抗样本攻击,以图像分类任务为例,对抗样本就是在正常的图像上添加一些人为的噪声,使得分类器出错,同时人眼无法分辨出这些噪声(肉眼还是能够正常分类的)。有关于对抗样本攻击,可以参考我的这篇文章如上图所示,在添加激光之后,相机所拍摄到的图片出现了变化,进而影响了分类器的结果。大巴在红色激光的作用下被原创 2021-03-24 22:33:09 · 390 阅读 · 0 评论 -
浅谈深度学习模型中的后门
关于深度学习安全方面,粗浅地可以分为两大块:对抗样本(Adversarial Example)以及后门(Backdoor)关于对抗样本可以查看我之前的文章 ----对抗样本攻击这一次我们主要关注深度学习里面的后门攻击。所谓后门,那就是一个隐藏着的,不轻易就被发现的一个通道。在某些特殊情况下,这个通道就会显露出来。那么在深度学习之中,后门又是怎样的呢?我这里不妨以图像分类任务作为一个例子,我们手里有一张狗的照片,通过分类器,以99%的置信度(confidence)被分类为狗。如若我在这张图像上添加一个图原创 2021-03-21 20:55:02 · 2861 阅读 · 4 评论 -
利用误分类样本来防御对抗样本
来自于ICLR2020的一篇paper – Improving Adversarial Robustness Requires Revisiting Misclassified Examples其中作者有北大的王奕森,在对抗样本这块工作比较多大家可以关注一下。防御对抗样本在深度学习里面一直是件难办的事 ,目前都没有什么特别有效的方法,我今天介绍这篇也不能完美解决这个问题,只希望提供一些一些有趣的思路给大家。首先,文章进行了一个小的实验,可以说是一个有意思的观察。作者首先讲正确分类的样本集合记做S+S^原创 2021-03-14 21:52:03 · 585 阅读 · 0 评论 -
浅谈深度学习中的对抗样本及其生成方法
文章目录背景主要内容FGSMJSMAC&WPGDBIMMIMEAD背景深度学习模型被广泛应用到各种领域,像是图像分类,自然语言处理,自动驾驶等。以ResNet,VGG为代表的一系列深度网络在这些领域上都取得了不错的效果,甚至超过人类的水平。然而,Szegedy等人在2014年的工作(Intriguing properties of neural networks)揭示了深度网络的脆弱性(vulnerability),即在输入上做一些微小的扰动(perturbation)就可以令一个训练好的模型输原创 2020-12-26 17:08:58 · 1976 阅读 · 1 评论 -
When Does Machine Learning FAIL? Generalized Transferability for Evasion and Poisoning Attacks论文笔记
When Does Machine Learning FAIL? Generalized Transferability for Evasion and Poisoning Attacks论文笔记该论文主要是介绍了一个FAIL模型, 即一个通用框架用来分析针对机器学习系统的真实攻击, 同时也提出了一种有目标的投毒攻击, 称作StingRay, 使得该攻击能击溃现存的防御, 通过观察FAIL的维度...原创 2019-01-11 00:08:27 · 623 阅读 · 0 评论 -
Procedural Noise Adversarial Examples for Black-Box Attacks on Deep Neural Networks论文笔记
Procedural Noise Adversarial Examples for Black-Box Attacks on Deep Neural Networks论文笔记0. 概述如今一些深度神经网络对于一些对抗性样本(Adversarial sample)是弱势的, 对抗性样本就是指我们对输入进行特定的改变, 通过原有的学习算法最终导致整个网络内部出现误差, 这属于攻击的一种, 然而, ...原创 2018-11-25 07:01:06 · 2424 阅读 · 0 评论