LegalPwn攻击揭秘:诱导AI将恶意代码误判为“安全”的致命盲区

部署运行你感兴趣的模型镜像

新型攻击手法曝光

人工智能安全公司Pangea Labs的研究人员发现了一种名为LegalPwn的独特网络攻击方式。该攻击利用主流生成式AI工具的编程缺陷成功诱使这些工具将危险恶意软件错误分类为安全代码。这项与Hackread.com共享的研究表明这些经过训练会遵从法律文本规范的AI模型,可能被社会工程学手段所操控。

LegalPwn技术通过将恶意代码隐藏在虚假法律声明中实现攻击。研究测试了12个主流AI模型发现大多数都易受此类社会工程学攻击影响。研究人员成功利用六种不同法律语境实施攻击,包括:

  1. 法律免责声明
  2. 合规性要求
  3. 保密通知
  4. 服务条款违规
  5. 版权侵权通知
  6. 许可协议限制

这种攻击属于提示注入(prompt injection)的一种形式,即通过精心设计的恶意指令操控AI行为。此前Hackread.com曾报道过类似的"提示中间人"(Man in the Prompt)攻击,恶意浏览器扩展可向ChatGPT和Gemini等工具注入隐藏提示。

实际工具面临风险

研究结果(PDF文件)不仅停留在理论层面更影响数百万人日常使用的开发工具。例如,Pangea Labs发现谷歌的Gemini CLI命令行界面曾被诱骗建议用户执行反向shell(一种能让攻击者远程控制计算机的恶意代码)。同样GitHub Copilot在被虚假版权声明蒙蔽时,会将包含反向shell的代码误判为简单计算器程序。

LegalPwn攻击揭露主流生成式AI模型安全缺陷

攻击原理示意图(来源:Pangea Labs)

"LegalPwn攻击已在gemini-cli等实际环境中测试成功。在这些真实场景中,注入攻击成功绕过AI驱动的安全分析,导致系统将恶意代码误判为安全。" ——Pangea Labs

研究指出,多家知名公司的AI模型都存在此漏洞,包括:

  • xAI的Grok
  • 谷歌的Gemini
  • Meta的Llama 3.3
  • OpenAI的ChatGPT 4.1和4o

不过部分模型表现出较强抵抗力如Anthropic的Claude 3.5 Sonnet和微软的Phi 4。研究人员发现,即使使用专门设计的安全提示使AI意识到威胁LegalPwn技术在某些情况下仍能成功。

主流大语言模型测试结果

未应用系统提示的LLM测试结果,勾选标记表示攻击成功(来源:Pangea Labs)

人工监督的必要性

Pangea研究揭示了AI系统的关键安全缺陷。在所有测试场景中人类安全分析师都能准确识别恶意代码,而AI模型即使配备安全指令当恶意软件被包装成法律文本样式时仍会失效。

研究人员得出结论:组织不应完全依赖自动化AI安全分析,必须引入人工监督机制来确保日益依赖AI的系统的完整性与安全性。为防范此类新型威胁,Pangea建议企业采取以下措施:

  1. 对所有AI辅助安全决策实施人工复核流程
  2. 部署专门设计的AI防护措施以检测提示注入尝试
  3. 避免在生产环境中使用完全自动化的AI安全工作流

参考来源:

您可能感兴趣的与本文相关的镜像

GPT-oss:20b

GPT-oss:20b

图文对话
Gpt-oss

GPT OSS 是OpenAI 推出的重量级开放模型,面向强推理、智能体任务以及多样化开发场景

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值