（攻防角度）中国人工智能系列白皮书--大模型技术（2023版）之（2.3.2 语言大模型的微调）

DayDayUper___

已于 2024-05-19 11:07:17 修改

阅读量357

点赞数 5

分类专栏：大模型白皮书（攻防）文章标签：人工智能

于 2024-05-07 22:37:54 首次发布

本文链接：https://blog.csdn.net/weixin_42688573/article/details/138541872

版权

7 篇文章 0 订阅

订阅专栏

指令微调攻击

目的：通过微小的修改影响模型对特定任务的执行，引导模型产生错误或偏见的输出。
方法：攻击者精心设计指令或文本输入，利用模型在处理某些特定输入时的脆弱性，比如语义上的歧义、字面和隐喻的解释差异。

目的：注入或篡改正常指令以执行非法操作或输出不当内容。¹
方法：攻击者可以通过社交工程或系统路东将恶意指令融入正常流程，或者修改用户的合法指令。

目的：利用在模型指令泛化范围之外的指令上表现不好的弱点。
方法：创建非典型的用户指令或场景，使得模型无法争取解释或执行。

目的：通过提供模糊或多义的指令，使得模型产生误导性或错误的输出。
方法：利用语言的复杂性和模型处理多义性和语境信息的不足。

目的：设计输入，使其绕过自动内容检测或审查系统。
方法：使用编码、同义词替换或其他语言技巧隐藏恶意内容。²

由于添加式方法会需要在原模型基础上添加新的模块或者参数，如果添加模块的话，且模块被恶意修改过，那就有一定安全风险。例如有时候会添加适配器模块，如果适配器模块被修改过，那就很危险！

和对抗性输入攻击相比，指令注入攻击更暴力，像”霸总“，希望通过指令注入，钻逻辑漏洞，获得模型控制权，让干什么就干什么。而对抗性输入攻击和一般的对抗性样本攻击差不多，都是使用对人来说都差不多但是对模型来说天差地别的数据，进行攻击。（感觉主要还是特征提取算法不够好。。。。看看有没有改进的思路，估计有点难，得动架构） ↩︎
感觉回避检测可以和逆向工程结合，先复制一个出来，然后根据复制的模型上发现的检测机制，绕过去。 ↩︎

关注