深度学习自然语言处理 原创
作者:无穷小敏
今天要给大家介绍一篇OpenAI的在今年4月19日发表的一篇研究,该研究提出了一种指令层次结构(instruction hierarchy),以减少LLM被攻击的风险,提高模型的鲁棒性。
可能有些小伙伴平时更关注大模型的性能,但是大模型安全在工业界,特别是AI模型落地时,是非常重要的一个考量。例如之前很火的prompt攻击方式“奶奶漏洞”,通过让GPT扮演奶奶睡前讲故事,可以套路GPT,让他说出某些正版软件的密钥😂😂。很显然这会给LLM公司带来法律风险。虽然这种直接注入漏洞已经被修复了,但是现在LLM结合工具/Agent之后,会有更多间接注入攻击让我们的LLM没有按照希望的方式去工作。
为了解决这个问题,这篇研究提出了一种指令层次结构(instruction hierarchy)。它明确定义了不同指令的优先级,以及当不同优先级的指令发生冲突时,LLM应该如何表现。通过这种方式,LLM会区别开系统指令和来自不受信任用户的指令之间的优先级,而不是像之前一样对所有的prompt都一视同仁。再根据优先级冲突时制定的策略以规范LLM的表现,从而减少LLM被攻击的风险。
这篇研究还提出了一种自动数据生成方法,来演示这种层次指令的跟踪行为,从而教会LLM有选择地忽略权限较低的指令。实验表明在几乎不影响LLM的标准能力的情况下,极大地提高了模型的鲁棒性。特别是即使在对训练期间从未见过的攻击类型也是如此!说明这种方法在应对未知的攻击时也是有一定的泛化性的。
接下来让