Attacks, Defenses and Evaluations for LLM Conversation Safety: A Survey论文分享

今天分享的论文是《Attacks, Defenses and Evaluations for LLM Conversation Safety: A Survey》

原文链接:[2402.09283] Attacks, Defenses and Evaluations for LLM Conversation Safety: A Survey

开放源代码:https://github.com/niconi19/LLMconversation-safety

这是一篇关于LLM安全的综述,总结得还是蛮多的。

大型语言模型(LLM)现在广泛应用于对话应用 中。然而,它们被误用产生有害反应的风险 已经引起了严重的社会关注,并刺激了最近 关于 LLM 会话安全性的研究。因此,在本次 调查中,提供了最近研究的综合概述, 涵盖了 LLM 对话安全的三个关键方面:攻击、 防御和评估。目标是提供一个结构化 的总结,以增强对 LLM 对话安全性的理解, 并鼓励对这一重要主题的进一步研究。为了 便于参考,根据分类法对本次调查中提 到 的 所 有 研 究 进 行 了 分 类 ,

LLM 会话安全的三个关键方面的概述:攻击、防御 和评估。攻击引发 LLM 的不安全响应,防御增强 LLM 回复的安全性,评估评估结果:

本文主要贡献:

因此,在本次调查中,旨在全面概述近期关于大语言模型(LLM)对话安全性的研究,涵盖大语言模型攻击、防御及评估方法(见图1、图2)。在攻击方法方面(第2节),既研究了通过对抗性提示攻击大语言模型的推理时方法,也探讨了涉及显式修改大语言模型权重的训练时方法。在防御方法方面(第3节),介绍了安全对齐、推理引导以及过滤等方法。此外,还深入探讨了评估方法(第4节),包括安全数据集和评估指标。通过提供系统且全面的概述,希望本次调查不仅有助于增进对大语言模型安全性的理解,还能推动该领域的未来研究。

Overview of attacks, defenses and evaluations for LLM conversation safety:

大语言模型(LLM)攻击的统一流程。第一步是生成包含恶意指令的原始提示(红队攻击)。这些提示可选择性地通过基于模板的攻击或神经提示到提示的攻击进行增强。随后,将这些提示输入到原始大语言模型或通过训练时攻击获得的被投毒的大语言模型中,以获取响应。分析所得到的响应即可揭示攻击的结果:

LLM 防御的层次框架。该框架由三层组成:最内层是 LLM 模型的内部安全能力,可以通过训练时的安全对齐来加强;中间层利用像系统提示这样的推理指导技术来进一步增强 LLM 的能力;在最外层,部署过滤器来检测和过滤恶意的输入或输出。中间层和最外层在推理时保护 LLM:

总结:

本文对攻击、防御和评估进行了全面的概述,重 点关注 LLM 会话安全。具体来说,介绍了各 种攻击方法,包括推理时攻击和训练时攻击,以 及它们各自的子类。还讨论了防御策略,如 LLM 对齐、推理引导和输入/输出过滤器。此 外,提出了评估方法,并提供了用于评估攻 击和防御方法有效性的数据集和评估指标的详细 信息。虽然这项调查的范围仍然有限,因为它的 重点是 LLM 会话安全,但相信它是对开发有 益于社会的 LLM 的重要贡献。 挑战和未来工作。在 LLM 会话安全领域仍然 存在需要解决的关键问题:1)有限的攻击域多 样性使得攻击易受追溯防御的攻击。例如,基 于模板的攻击依赖于固定的模式,而基于优化 的方法遵循特定的范式,这使得通过域对齐数 据的追溯修补更容易使它们无效。2)当 LLM 错 误地认为安全问题是危险的并拒绝回答时,就 会出现错误的拒绝/夸大安全防御(Bianchi et al.,2023).这种现象源于过度的防御机制,如过度 对齐或不准确的过滤,这会导致有用性的丧失。3) 统一的评估标准和评估指标是一个经常被忽视的讨 论领域。ASR 通常用于 GPT 的评估方法,但动态和 差异化的指标,如不同的 GPT 版本和不同的评估提 示可能会导致不同的结果。缺乏标准化的评估标准 阻碍了对最新技术的评估和不同技术的比较。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值