【总结】攻击 AI 模型的方法

Sunshine_xiaohao

已于 2024-06-22 23:07:10 修改

阅读量377

点赞数 4

分类专栏：可信AI 文章标签：可信AI

于 2024-06-22 23:05:55 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sunshine_xiaohao/article/details/139889263

版权

可信AI 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

数据投毒
污染训练数据
后门攻击
通过设计隐蔽的触发器，使得模型在正常测试时无异常，而面对触发器样本时被操纵输出。后门攻击可以看作是特殊的数据投毒，但是也可以通过修改模型参数来实现
对抗样本
只对输入做微小的改动，使模型做出错误判断
模型窃取
利用中小模型窃取大模型的特定能力
提示注入
设计输入，使LLM将输入误认为是指令，生成由攻击者控制的欺骗性输出。可以细分为目标劫持和Prompt泄露。目标劫持是将原本的输出目标转向攻击者需要的目标；Prompt 泄露是诱导LLM披露其初始系统 prompt
越狱攻击
设计输入，绕过安全机制，输出不该输出的东西

参考文献：
【大模型安全】[文献整理] 大模型对抗攻击
 什么是提示注入攻击？
Stealing LLMs: 关于对ChatGPT进行模型窃取的一些工作
 模型安全：后门攻击
 AI Security2-投毒攻击(Poisoning Attacks)

Sunshine_xiaohao

关注

4
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
【总结】攻击 AI 模型的方法

通过设计隐蔽的触发器，使得模型在正常测试时无异常，而面对触发器样本时被操纵输出。后门攻击可以看作是特殊的数据投毒，但是也可以通过修改模型参数来实现。目标劫持是将原本的输出目标转向攻击者需要的目标；Prompt 泄露是诱导LLM披露其初始系统 prompt。设计输入，使LLM将输入误认为是指令，生成由攻击者控制的欺骗性输出。设计输入，绕过安全机制，输出不该输出的东西。只对输入做微小的改动，使模型做出错误判断。利用中小模型窃取大模型的特定能力。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。