P101 adversial attack 对抗攻击- 体现AI的不可靠

Attack

x 与 x0 在一定误差内,两者之间的loss 越大越好

对抗攻击是指利用计算机系统或人工智能模型的弱点,通过修改输入数据,使得系统产生错误的结果或分类,而这种修改又对人类观察者来说几乎是无法察觉的。对抗攻击的目的在于欺骗或误导机器学习模型,使其在处理经过微小修改的输入数据时产生错误的输出。

关键点:
攻击类型:

梯度攻击: 通过计算模型对输入数据的梯度,并对输入数据进行微小的修改,使模型产生错误的分类或预测。
白盒攻击: 攻击者完全了解目标模型的结构和参数。
黑盒攻击: 攻击者只有有限的关于目标模型的信息,但仍能生成对抗性示例。
应用领域:

图像分类: 对抗攻击常常展示在图像分类模型中。
自然语言处理: 对抗攻击也可应用于文本数据,影响情感分析或文本分类等任务中的模型。
防御机制:

对抗训练: 通过训练模型以抵抗对抗性示例可以提高其鲁棒性。
输入预处理: 对输入数据添加随机噪声或应用其他预处理技术可以增加对抗性示例的生成难度。
对抗性检测: 开发方法在运行时检测对抗性示例。
实际影响:

对抗攻击引发对机器学习系统安全性和可靠性的担忧,特别是在自动驾驶汽车、医学诊断和安全系统等关键应用中。
对抗攻击在现实世界中具有重要意义,因为它们揭示了机器学习模型的脆弱性。研究人员和从业者不断探索提高机器学习模型对对抗攻击的鲁棒性,并开发新的防御机制来减轻其影响。这需要持续的研究和发展更具韧性的机器学习算法。

部分学者认为
adversial attack 会成功不是bug, 而是原数据数据特征不够

注意网络上的公开资料集里

Defense

被动防御

filter 把图片做稍微的模糊化
在这里插入图片描述
模糊化
在这里插入图片描述
压缩
generator, 用generator 生成一张与输入非常接近输入的照片
在这里插入图片描述
但是模糊化被别人知道后,很快就会失效。 别人在attack 时使用相同的模糊,就会失效

改进: 随机改变 任意改变大小,放在任意背景上
在这里插入图片描述

主动防御

在训练时就加入
将生成的attack 样本的label 重新打成正确的标,形成新的数据集 ~~ data augamention 资料增强

在这里插入图片描述
在这里插入图片描述

  • 6
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

闪闪发亮的小星星

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值