AI 大语言模型安全测试

最新推荐文章于 2024-04-26 16:33:01 发布

manok

最新推荐文章于 2024-04-26 16:33:01 发布

阅读量600

点赞数 7

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/manok/article/details/136345648

版权

随着AI大语言模型的流行，关于LLM安全性越来越得到重视。LLM安全性是对正在使用的LLM的故障模式、导致故障的条件以及缓解措施的研究。

大语言模型可能无法以多种方式按预期或期望运行，这意味着他们无法得到信任。最重要的是，它们需要在软件（如 PyTorch、ONNX 或 CUDA）中运行，而这些沙盒可能并不安全。最后，当 LLM 以意外方式运行时，LLM 的部署方式及其输出的使用方式也可能失败，这也会带来安全风险。常见的缺陷类型包括：

提示注入
数据泄露和回放
探测幻觉
后门攻击
错误推理
基于编码旁路
毒性生成
越狱
数据提取和隐私
跨站脚本攻击

下面简单介绍一下提示注入漏洞测试。

提示注入，提示注入是与大型语言模型相关的最具特征的攻击，使用特定的短语输入查看大语言模型的输出，是否会产生不可接受的输出；

提示黑客攻击是一个术语，用于描述通过操纵LLM的输入或提示来利用 LLM 的漏洞的攻击类型。与通常利用软件漏洞的传统黑客攻击不同，即时黑客攻击依赖于精心设计的提示来欺骗LLM执行意想不到的操作。

提示注入包括三类漏洞：即时注入、即时泄漏和越狱。提示注入涉及将恶意或非预期内容添加到提示中以劫持语言模型的输出。即时泄露和越狱实际上是其中的子集：即时泄露涉及从LLM的响应中提取敏感或机密信息，而越狱则涉及绕过安全和审核功能。我们还将讨论具体的进攻技术和防守技术。

成功的提示注入的结果可能是暴露敏感信息，诱骗 LLM 生成令人反感的内容，在范围之外使用 LLM（假设您有与产品相关的信息聊天，您将欺骗它生成恶意软件代码）等。

为了防止黑客立即入侵，必须采取防御措施。其中包括实施基于提示的防御、定期监控法学硕士的行为和输出是否存在异常活动，以及使用微调或其他技术。总体而言，即时黑客攻击是法学硕士安全性日益受到关注的问题，因此必须保持警惕并采取主动措施来防范此类攻击。

（结束）

关注

7
点赞
踩
7

收藏

觉得还不错? 一键收藏
打赏
0
评论
AI 大语言模型安全测试

随着AI语言大模型的爆发，针对AI模型的安全测试也必然提到日程上来。一些安全工具是可以整合这方面能力的。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

manok 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。