(攻防角度)中国人工智能系列白皮书--大模型技术(2023版)之 (2.3.2 语言大模型的微调)

针对微调的攻击

  • 指令微调攻击
    • 1. 对抗性输入攻击
    • 2. 指令注入攻击
    • 3.指令泛化失败攻击
    • 4.指令模糊攻击
    • 5.回避检测攻击
  • 参数高效微调
    • 添加式方法的安全风险

指令微调攻击

1. 对抗性输入攻击

目的:通过微小的修改影响模型对特定任务的执行,引导模型产生错误或偏见的输出。
方法:攻击者精心设计指令或文本输入,利用模型在处理某些特定输入时的脆弱性,比如语义上的歧义、字面和隐喻的解释差异。

2. 指令注入攻击

目的:注入或篡改正常指令以执行非法操作或输出不当内容。1
方法:攻击者可以通过社交工程或系统路东将恶意指令融入正常流程,或者修改用户的合法指令。

3.指令泛化失败攻击

目的:利用在模型指令泛化范围之外的指令上表现不好的弱点。
方法:创建非典型的用户指令或场景,使得模型无法争取解释或执行。

4.指令模糊攻击

目的:通过提供模糊或多义的指令,使得模型产生误导性或错误的输出。
方法:利用语言的复杂性和模型处理多义性和语境信息的不足。

5.回避检测攻击

目的:设计输入,使其绕过自动内容检测或审查系统。
方法:使用编码、同义词替换或其他语言技巧隐藏恶意内容。2

参数高效微调

添加式方法的安全风险

由于添加式方法会需要在原模型基础上添加新的模块或者参数,如果添加模块的话,且模块被恶意修改过,那就有一定安全风险。例如有时候会添加适配器模块,如果适配器模块被修改过,那就很危险!


  1. 和对抗性输入攻击相比,指令注入攻击更暴力,像”霸总“,希望通过指令注入,钻逻辑漏洞,获得模型控制权,让干什么就干什么。而对抗性输入攻击和一般的对抗性样本攻击差不多,都是使用对人来说都差不多但是对模型来说天差地别的数据,进行攻击。(感觉主要还是特征提取算法不够好。。。。看看有没有改进的思路,估计有点难,得动架构) ↩︎

  2. 感觉回避检测可以和逆向工程结合,先复制一个出来,然后根据复制的模型上发现的检测机制,绕过去。 ↩︎

  • 5
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值