针对Transformer的攻击
- 一、对抗性攻击
- 目标
- 攻击流程
- 常用方法
- 二、数据污染攻击
- 目标
- 攻击流程
- 应用示例
- 三、模型窃取攻击
- 目标
- 攻击流程
- 技术手段
- 四、模型逆向工程
- 目标
- 攻击流程
- 分析方法
一、对抗性攻击
目标
导致模型在特定输入上产生错误的输出,而不影响其它输入的表现。
攻击流程
- 选择目标模型和攻击的输入示例。
- 使用算法(如FGSM、PGD等)1生成对抗样本,即在输入数据上添加经过精细计算的扰动。
- 输入对抗样本到模型,观察模型是否产生了错误的预测结果。
- 调整扰动,重复步骤2和3,直到找到成功使模型误判的扰动。
常用方法
梯度基方法、优化基方法。2
二、数据污染攻击
目标
通过修改训练数据,使得模型学到错误的信息,从而在实际使用中表现异常。
攻击流程
- 确定要污染的数据和注入恶意数据的方式。
- 制作或修改数据样本,将其植入正常的训练集中。
- 让模型使用这些被污染的数据进行训练。
- 验证模型在特定任务上的表现是否按照攻击者的预期发生了变化。
应用示例
在文本分类任务中注入有偏见的文本,导致模型在某些类别上预测偏差。
三、模型窃取攻击
目标
复制或逼近商业模型的功能,以绕过使用费用或者侵犯知识产权。
攻击流程
- 通过模型的API接口进行大量的查询,收集输入与对应的输出数据。
- 使用收集到的数据训练一个新模型,试图模仿原模型的行为。
- 优化新模型,直到其在多数任务上的表现接近或等同于原模型。3
技术手段
黑盒攻击, 使用模型输出进行反向训练。4
四、模型逆向工程
目标
通过分析模型的输出,推测模型的结构、参数或训练数据。5
攻击流程
- 设计并实施一系列系统的输入,观察并记录模型的输出。
- 分析这些输入输出的关系,推断模型的工作机制。
- 可能的话,利用得到的信息重建模型或识别模型的关键参数。
分析方法
使用机器学习技术分析输入输出数据的统计关系。