针对微调的攻击
- 指令微调攻击
- 1. 对抗性输入攻击
- 2. 指令注入攻击
- 3.指令泛化失败攻击
- 4.指令模糊攻击
- 5.回避检测攻击
- 参数高效微调
- 添加式方法的安全风险
指令微调攻击
1. 对抗性输入攻击
目的:通过微小的修改影响模型对特定任务的执行,引导模型产生错误或偏见的输出。
方法:攻击者精心设计指令或文本输入,利用模型在处理某些特定输入时的脆弱性,比如语义上的歧义、字面和隐喻的解释差异。
2. 指令注入攻击
目的:注入或篡改正常指令以执行非法操作或输出不当内容。1
方法:攻击者可以通过社交工程或系统路东将恶意指令融入正常流程,或者修改用户的合法指令。
3.指令泛化失败攻击
目的:利用在模型指令泛化范围之外的指令上表现不好的弱点。
方法:创建非典型的用户指令或场景,使得模型无法争取解释或执行。
4.指令模糊攻击
目的:通过提供模糊或多义的指令,使得模型产生误导性或错误的输出。
方法:利用语言的复杂性和模型处理多义性和语境信息的不足。
5.回避检测攻击
目的:设计输入,使其绕过自动内容检测或审查系统。
方法:使用编码、同义词替换或其他语言技巧隐藏恶意内容。2
参数高效微调
添加式方法的安全风险
由于添加式方法会需要在原模型基础上添加新的模块或者参数,如果添加模块的话,且模块被恶意修改过,那就有一定安全风险。例如有时候会添加适配器模块,如果适配器模块被修改过,那就很危险!