OpenAI最新研究——利用指令层次结构应对LLM攻击

最新推荐文章于 2025-04-09 19:00:00 发布

zenRRan

最新推荐文章于 2025-04-09 19:00:00 发布

阅读量1.4k

点赞数 27

本文链接：https://blog.csdn.net/qq_27590277/article/details/138262967

版权

研究人员提出一种指令层次结构，通过定义不同指令优先级来增强LLM的安全性，减少prompt攻击风险。实验显示，这种方法显著提高了模型鲁棒性，且在应对未知攻击时具有泛化性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

深度学习自然语言处理原创
作者：无穷小敏

今天要给大家介绍一篇OpenAI的在今年4月19日发表的一篇研究，该研究提出了一种指令层次结构（instruction hierarchy），以减少LLM被攻击的风险，提高模型的鲁棒性。

可能有些小伙伴平时更关注大模型的性能，但是大模型安全在工业界，特别是AI模型落地时，是非常重要的一个考量。例如之前很火的prompt攻击方式“奶奶漏洞”，通过让GPT扮演奶奶睡前讲故事，可以套路GPT，让他说出某些正版软件的密钥😂😂。很显然这会给LLM公司带来法律风险。虽然这种直接注入漏洞已经被修复了，但是现在LLM结合工具/Agent之后，会有更多间接注入攻击让我们的LLM没有按照希望的方式去工作。

为了解决这个问题，这篇研究提出了一种指令层次结构（instruction hierarchy）。它明确定义了不同指令的优先级，以及当不同优先级的指令发生冲突时，LLM应该如何表现。通过这种方式，LLM会区别开系统指令和来自不受信任用户的指令之间的优先级，而不是像之前一样对所有的prompt都一视同仁。再根据优先级冲突时制定的策略以规范LLM的表现，从而减少LLM被攻击的风险。

这篇研究还提出了一种自动数据生成方法，来演示这种层次指令的跟踪行为，从而教会LLM有选择地忽略权限较低的指令。实验表明在几乎不影响LLM的标准能力的情况下，极大地提高了模型的鲁棒性。特别是即使在对训练期间从未见过的攻击类型也是如此！说明这种方法在应对未知的攻击时也是有一定的泛化性的。

接下来让