大模型安全 | 大模型窃取、大模型剽窃

来源:轩辕重出武圣人@大模型与小场景

恶意行为者或高级持续性威胁(APT)对LLM(语言模型)进行未经授权的访问和泄露。

当具有高价值知识产权的LLM模型被泄露、物理盗窃、复制或提取权重和参数以创建功能等效的模型时,就会发生这种情况。

LLM模型盗窃的影响可能包括经济和品牌声誉损失、竞争优势受到侵蚀,以及未经授权使用模型或未经授权访问模型中包含的敏感信息。

随着语言模型变得越来越强大和普及,LLM模型盗窃成为一个重大的安全问题。组织和研究人员必须优先考虑强有力的安全措施来保护其LLM模型,确保其知识产权的机密性和完整性。

为减轻与LLM模型盗窃相关的风险并保护依赖LLM的个人和组织的利益,采用全面的安全框架,包括访问控制、加密和持续监控,至关重要。

漏洞的常见示例:

1. 攻击者利用公司基础设施中的漏洞,通过网络或应用程序安全设置的错误配置,未经授权地访问LLM模型存储库。
2. 使用集中式ML模型清单或注册表来管理生产中使用的ML模型。通过访问控制、身份验证和监控/日志记录功能,防止对ML模型的未经授权访问,这是良好治理的基础。拥有集中式存储库还有助于收集模型所使用的算法的数据,以实现合规性、风险评估和风险缓解。
3. 内部人员泄露模型或相关工件,构成内部威胁场景。
4. 攻击者使用精心设计的输入和提示注入技术来查询模型API,以收集足够数量的输出来创建影子模型。
5. 恶意攻击者能够绕过LLM的输入过滤技术,执行旁道攻击,并最终收集模型权重和架构信息到远程控制资源。

模型提取攻击涉及使用大量特定主题的提示来查询LLM,然后利用LLM的输出微调另一个模型。需要注意的是,虽然攻击者无法完全复制LLM模型,但他们可以复制其中的部分模型。

对抗性攻击向量涉及使用目标模型生成合成训练数据(一种称为“自指导”的方法),然后使用该数据微调另一个基础模型以生成功能等效的模型。这种方法绕过了传统的基于查询的模型提取方法的限制,并已成功用于使用LLM训练另一个LLM的研究。

需要注意的是,在这种研究背景下,模型复制并不是一种攻击方法。攻击者可以使用该方法通过公共API复制专有模型。

被盗模型可用作影子模型,用于进行对抗性攻击,包括未经授权访问模型中的敏感信息,或在未被检测到的情况下使用对抗性输入进行实验,以进一步注入高级提示。

如何预防:

为限制对LLM模型存储库和培训环境的未经授权访问,应实施强大的访问控制(例如角色基于访问控制、最小权限规则)和身份验证机制。
供应商管理方面的跟踪、验证和依赖性漏洞是防止供应链攻击的重要关注点。
限制LLM对网络资源、内部服务和API的访问,这对于前述常见示例尤为重要。这一措施可以控制LLM应用程序的访问权限,从而防止侧通道攻击。
定期监控和审核与LLM模型存储库相关的访问日志和活动,及时检测和响应任何可疑或未经授权的行为。
通过自动化MLOps部署的治理、跟踪和审批工作流程,加强基础设施内的访问和部署控制。
实施控制和缓解策略,以减轻或降低提示注入技术导致的侧通道攻击风险。
对于适用的情况,对API调用进行速率限制和/或过滤器,以降低从LLM应用程序泄露数据的风险,或实施技术来检测来自其他监控系统的(例如数据丢失防护)提取活动。
实施对抗性鲁棒性训练,以帮助检测提取查询并加强物理安全措施。
在LLM生命周期的嵌入和检测阶段实施水印框架。


攻击场景示例:

1. 攻击者利用公司基础设施中的漏洞未经授权访问其LLM模型存储库,进而窃取有价值的LLM模型。攻击者可能利用这些模型启动竞争性语言处理服务或提取敏感信息,给原始公司造成严重的财务损失。
2. 心怀不满的员工泄露了模型或相关工件,这种情况的公开曝光增加了攻击者对灰盒对抗性攻击或直接窃取可用财产的了解。
3. 攻击者利用精心选择的输入查询API,并收集足够数量的输出来创建影子模型。
4. 供应链中存在安全控制故障,导致专有模型信息的数据泄露。
5. 恶意攻击者绕过LLM的输入过滤技术和前导码,执行旁道攻击,并将模型信息检索到其控制下的远程控制资源。
 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值