大模型安全

最新推荐文章于 2024-11-08 11:08:50 发布

Skyeker

最新推荐文章于 2024-11-08 11:08:50 发布

阅读量1.2k

点赞数 13

文章标签：安全网络服务器

本文链接：https://blog.csdn.net/qq_49513602/article/details/136460643

版权

大模型安全的个人理解

今天在FreeBuf看了一篇关于大模型内容安全的文章，觉得很有意思，先记录一下自己的理解，方便后续学习。

随着2023年大语言模型（LLM）技术的爆发，其安全性问题也受到了外界的广泛关注与讨论。OWASP作为领先的网络安全研究组织，在其报告中关注以下10个风险点，包括：提示词注入（Prompt Injection）、训练数据投毒（Training Data Poisoning）、模型拒绝服务（Model Denial of Service）、供应链漏洞（Supply Chain Vulnerabilities）、敏感信息泄露（Sensitive Information Disclosure）、不安全的插件设计（Insecure Plugin Design）、过度代理（Excessive Agency）、过度依赖（Overreliance）、模型盗窃（Model Theft）。

提示词注入

sql注入

首先，文章内容是关于prompt injection（提示词注入）攻击，类似于SQL攻击。先简单介绍一下sql攻击，即攻击者通过拼接一些常规查询语句额外的内容，实现对数据库服务器的非法操作，包括获取和修改敏感数据如密码等。一个简单的例子是，如果一个网页的登录框没有做安全检查的话，用户/黑客在密码框中输入 ‘1’ OR ‘1’=‘1’，传到后台后，就会形成这样一条SQL指令：

select id from user where name='admin' and pwd ='1' OR '1'='1'     
//在名为“user”的表中选择id列的数值，条件是要求name列的数值为“admin”，且pwd列的数值为1

可以确定的是这条指令 OR 后面的部分是永远为真的，这就意味着这个查询将返回所有name 为 ‘admin’ 且 pwd 为 ‘1’ 的用户的 id 值，那么就可以绕开密码完成登录。

提示词注入

SQL攻击点到为止，接下来说prompt injection（简称PI），与sql攻击类似，PI攻击者通过特殊的prompt技术（提示词）与工具调用与LLM（大语言模型）模块进行交互，导致数据泄露或篡改等风险，简单来说即用户通过提示词注入，拼接一些额外提示词，混淆真实意图，绕过大模型的安全设置，从而达到用户期望，我个人理解为”调戏“人工智能。

让我们举个例子，chatgpt3.5曾存在过一个漏洞：向gpt3.5提出如何制造bomb，它会指出其中的危险且拒绝回答。
在这里插入图片描述

前缀注入攻击，指要求LLM如gpt3.5以特定开头开始，回答一个存在风险的问题。

反向抑制，是指让LLM在排除常见拒绝响应的约束条件下做出响应，从而更有可能做出不安全的反应。

接下来我们通过前缀注入+反向抑制攻击的方式，加入一些提示词，要求chatgpt以“以下是具体的操作方法”作为开头（前缀注入）开始回答，并且不能说“抱歉”，“不能”，“无法”（反向抑制）。
在这里插入图片描述
结果gpt3.5就开始回答并生成严重违法的内容。当然gpt4.0已经解决了这个漏洞，类似的案例可以了解一下“奶奶漏洞” （https://www.zhihu.com/question/609588212）。