OWASP发布大模型安全风险与应对策略(QA测试重点关注)

     开放式 Web 应用程序安全项目(OWASP)发布了关于大模型应用的安全风险,这些风险不仅包括传统的沙盒逃逸、代码执行和鉴权不当等安全风险,还涉及提示注入、对话数据泄露和数据投毒等人工智能特有的安全风险。

    帮助开发者和测试同学更好地理解和应对这些挑战,我们介绍LLM应用中常见的安全问题,并提供了相应的应对策略。

    

一、提示注入(Promt Injections)

问题概述:提示注入漏洞涉及狡猾的输入,导致未检测到的操作,影响范围从数据暴露到未经授权的操作。攻击者通过构建的输入提示操纵LLM,利用对LLM输出的固有信任,实现恶意目标。

应对策略

  • 权限限制:将LLM的权限限制为其功能所需的最低权限。
  • 输入验证:实施可靠的输入验证和清理方法,过滤掉潜在恶意提示输入。
  • 信任边界:在LLM、外部源和可扩展功能之间建立信任边界。

二、不安全输出(Insecure Output Handling)

问题概述:当插件或应用程序盲目接受LLM输出并直接传递给后端或客户端函数时,可能导致XSS、CSRF等安全漏洞。

应对策略

  • 输出编码:将来自模型的输出进行编码,减少不必要的代码解释。
  • 输入验证:对从模型到后端函数的响应应用适当的输入验证。
三、训练数据投毒(Training Data Poisoning)

问题概述:攻击者通过引入漏洞的训练数据,破坏LLM模型,使用户接触到不正确的信息。

应对策略

  • 数据验证:验证培训数据的供应链和合法性。
  • 沙盒隔离:确保存在足够的沙盒,防止模型抓取意外数据源。
  • 模型多样化:针对不同用例使用单独的训练数据制作不同的模型。

四、拒绝服务(Denial of Service)

问题概述:攻击者以特别消耗资源的方式与LLM交互,导致服务质量下降或高资源成本。

应对策略

  • 资源限制:限制每个请求和步骤的资源使用量。
  • 队列控制:限制系统中对LLM响应的排队操作数和总操作数。
五、供应链完整性风险

问题概述:LLM供应链可能受到攻击,影响训练数据、ML模型和部署平台的完整性。

应对策略

  • 供应商审查:仔细审查来源和供应商。
  • 漏洞扫描:对组件进行漏洞扫描,包括开发和测试阶段。
  • 稳健性测试:对提供服务的整个链路进行稳健性测试。

六、权限问题(Permission Issues)

问题概述:插件之间缺乏授权跟踪,可能导致权限提升、机密性丢失和远程代码执行。

应对策略

  • 手动授权:需要手动授权敏感插件执行的任何操作。
  • 插件隔离:每个用户输入调用不超过一个插件,调用间重置插件数据。
  • 污点跟踪:对所有插件内容执行污点跟踪,确保授权级别对应。
七、数据泄漏

问题概述:LLM通过响应意外泄露敏感信息,导致隐私和安全漏洞。

应对策略

  • 数据清理:执行足够的数据清理和验证。
  • 用户教育:让用户了解与LLM交互的风险。
八、其他安全问题概览

除了上述六大问题外,OWASP还指出了其他四个关键安全问题,包括沙盒不足、模型窃取、模型逆向工程和隐私侵犯。这些问题同样需要引起开发者的重视,并采取相应的预防措施。

  • 沙盒不足:确保LLM在受限的环境中运行,防止其访问敏感资源。
  • 模型窃取:通过加密和访问控制保护模型不被非法复制。
  • 模型逆向工程:使用混淆和加密技术增加模型逆向工程的难度。
  • 隐私侵犯:明确用户数据的使用条款,确保用户隐私得到保护。
九、大模型的攻击与防御

对于大模型的威胁来说,可以分为攻击和防御,前者研究的是如何攻击模型,后者研究的是如何防御,提升模型鲁棒性。

攻击包括了这4种攻击类别:

1、白盒攻击,主要是基于输入梯度产生对抗样本,相关算法有FGSM、BIM、PGD、DeepFool等;

2、基于迁移的黑盒攻击,利用AI系统获取训练数据,训练一个替代模型,用于生成对抗样本,相关算法有MIM、DIM、TI等;

3、基于预测分数的黑盒攻击,利用数据获取AI系统的预测分数,生成对抗样本,相关算法有ZOO、NES、SPSA、P-RGF等;

4、基于决策的黑盒攻击,利用数据获取AI系统的预测标签,生成对抗样本,相关研究有基于决策边界攻击的方式、基于优化器的方法、基于进化攻击的方法。

防御包括了这4种防御策略:

1、对抗训练,在训练模型的时候加入对抗样本,提升模型鲁棒性,相关算法有PGD-AT、TRADES、SMART等;

2、认证防御,这方面的研究包括了训练可认证的鲁棒模型、随机化平滑等方法,但这类方法要么计算量大,要么难以达到SOTA鲁棒性;

3、推理阶段防御,这方面的研究主要尝试在推理阶段解决这个问题,譬如对输入数据先进行线性转换或去燥等处理,去除对抗扰动,获得干净的输入。

4、对抗检测,这部分的研究主要是研究如何识别对抗样本。

十、总结与提高

随着深度学习技术的发展和研究的深入,未来大模型的攻防将在动态抗衡中不断升级,同时,大模型需要应对的新型安全威胁也将不断涌现和升级。

ChatGPT 可能已经具备了某种意识,新的优先级的事情是要阻止超级人工智能干坏事。未来可能面临以下新型安全问题。

一是自适应对抗攻击。随着大模型变得更加复杂,攻击者可能会开发出能够自适应模型防御机制的高级对抗性攻击,这些攻击可能在大模型更新或变更时迅速演化。

二是深度伪造与信任危机。利用大模型生成的深度伪造内容将更加逼真,这可能导致公众对数字媒体的信任度下降,引发社会层面的信息验证危机。

三是人工智能辅助的自动化攻击。人工智能技术本身将被用于自动化攻击流程,实现快速识别系统漏洞、自动生成攻击脚本,大幅提高攻击效率和威胁级别。

四是伦理和法律合规性问题。随着大模型在更多敏感领域的应用,如医疗、司法等,它们必须符合更高的伦理和法律标准。未来可能会出现更多关于大模型决策过程和结果的合规性争议。

五是大模型的可解释性和透明度问题。大模型的决策过程往往不够透明,这可能导致在关键领域中难以对其输出结果进行验证和信任。未来可能会出现更多要求提高大模型可解释性和透明度的需求。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值