常见的AI安全风险(数据投毒、后门攻击、对抗样本攻击、模型窃取攻击等)

本文概述了数据投毒、后门攻击、对抗样本和模型窃取这四种针对机器学习模型的攻击手段。数据投毒通过篡改训练数据影响模型性能;后门攻击在模型中植入隐藏功能,对特定输入产生异常反应;对抗样本通过微小修改误导模型决策;模型窃取则通过观察输出重建模型,威胁知识产权。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


在这里插入图片描述

数据投毒(Data Poisoning)

数据投毒是一种通过在 训练数据 中植入恶意样本或修改数据以欺骗机器学习模型的方法。这种攻击旨在使模型 在未来的预测或决策中 产生错误结果。攻击者可能会植入具有误导性标签或特征的数据,以扭曲模型的学习过程,导致模型偏离真实数据的表征。数据投毒攻击可能在模型训练过程中不被察觉,但其影响可能在模型部署和运行时显现出来。

后门攻击(Backdoor Attacks)

后门攻击是一种在模型 训练过程 中植入后门或隐藏功能的方式。这些后门可能是针对特定输入触发的,使得模型在遇到这些特定标记或输入时产生意外行为。后门攻击的目的是在模型表现正常的情况下,对特定情况下的预测或决策进行操控,可能导致安全隐患或隐私泄露

【注】后门攻击和数据投毒攻击的异同点:

  • 相同点:
    • 都是发生在模型的训练阶段
  • 不同点:
    • 数据投毒:主要目的是使模型的泛化性能变差, 也即在测试集上的效果变差, 模型不能进行有效的学习, 甚至无法收敛。
    • 后门攻击:目的则是使模型学习到攻击者指定的内容, 其对 正常样本 仍旧具有良好的测试效果,但对于 中毒样本 则会输出攻击者预先设定的标签。

对抗样本攻击(Adversarial Examples)

对抗样本攻击是通过对输入数据进行微小但有针对性的修改,使得机器学习模型产生错误分类或错误预测的样本。这些微小的变化对人类观察几乎不可察觉,但足以使模型做出错误的推断。对抗样本攻击是针对模型的鲁棒性和稳定性,即使在面对微小扰动时也能保持准确性。

模型窃取攻击(Model Extraction Attacks)

模型窃取攻击是一种针对机器学习模型的攻击,旨在通过观察模型的输出并利用查询功能,从中 重建或复制 原始模型。攻击者可能使用额外的查询信息来近似或重建受攻击模型,从而破坏模型拥有者的 知识产权潜在商业优势

参考资料

  • 深度学习中的后门攻击综述,杜巍, 刘功申,2022信息安全学报
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

北下关吴中生

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值