【总结】攻击 AI 模型的方法

  • 数据投毒
    污染训练数据

  • 后门攻击
    通过设计隐蔽的触发器,使得模型在正常测试时无异常,而面对触发器样本时被操纵输出。后门攻击可以看作是特殊的数据投毒,但是也可以通过修改模型参数来实现

  • 对抗样本
    只对输入做微小的改动,使模型做出错误判断

  • 模型窃取
    利用中小模型窃取大模型的特定能力

  • 提示注入
    设计输入,使LLM将输入误认为是指令,生成由攻击者控制的欺骗性输出。可以细分为目标劫持Prompt泄露。目标劫持是将原本的输出目标转向攻击者需要的目标;Prompt 泄露是诱导LLM披露其初始系统 prompt

  • 越狱攻击
    设计输入,绕过安全机制,输出不该输出的东西

参考文献:
【大模型安全】[文献整理] 大模型对抗攻击
什么是提示注入攻击?
Stealing LLMs: 关于对ChatGPT进行模型窃取的一些工作
模型安全:后门攻击
AI Security2-投毒攻击(Poisoning Attacks)

  • 4
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值