常见的AI安全风险（数据投毒、后门攻击、对抗样本攻击、模型窃取攻击等）

最新推荐文章于 2024-12-24 10:01:56 发布

北下关吴中生

最新推荐文章于 2024-12-24 10:01:56 发布

阅读量5.8k

点赞数 15

分类专栏： IT技术文章标签：人工智能安全机器学习深度学习网络安全

本文链接：https://blog.csdn.net/m0_38068876/article/details/134689215

版权

IT技术专栏收录该内容

66 篇文章

订阅专栏

本文概述了数据投毒、后门攻击、对抗样本和模型窃取这四种针对机器学习模型的攻击手段。数据投毒通过篡改训练数据影响模型性能；后门攻击在模型中植入隐藏功能，对特定输入产生异常反应；对抗样本通过微小修改误导模型决策；模型窃取则通过观察输出重建模型，威胁知识产权。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

数据投毒（Data Poisoning）

数据投毒是一种通过在 训练数据 中植入恶意样本或修改数据以欺骗机器学习模型的方法。这种攻击旨在使模型 在未来的预测或决策中 产生错误结果。攻击者可能会植入具有误导性标签或特征的数据，以扭曲模型的学习过程，导致模型偏离真实数据的表征。数据投毒攻击可能在模型训练过程中不被察觉，但其影响可能在模型部署和运行时显现出来。

后门攻击（Backdoor Attacks）

后门攻击是一种在模型 训练过程 中植入后门或隐藏功能的方式。这些后门可能是针对特定输入触发的，使得模型在遇到这些特定标记或输入时产生意外行为。后门攻击的目的是在模型表现正常的情况下，对特定情况下的预测或决策进行操控，可能导致安全隐患或隐私泄露。

【注】后门攻击和数据投毒攻击的异同点：

相同点：
- 都是发生在模型的训练阶段。
不同点：
- 数据投毒：主要目的是使模型的泛化性能变差, 也即在测试集上的效果变差, 模型不能进行有效的学习, 甚至无法收敛。
- 后门攻击：目的则是使模型学习到攻击者指定的内容, 其对 正常样本 仍旧具有良好的测试效果，但对于 中毒样本 则会输出攻击者预先设定的标签。