为大语言模型建立红队对抗

文章探讨了大语言模型如GPT3在生成文本时可能出现的不良行为,如泄露信息、偏见和有害内容。红队攻击作为评估和减轻这些风险的方法被提出,通过创造性提示来揭示模型的局限性。虽然红队攻击能帮助改进模型,但资源密集和定义成功攻击的标准不一仍是挑战。未来的研究方向包括建立开源红队数据集和优化策略,以确保模型的安全和友好性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

来自:Hugging Face

在巨量文本数据下训练的大语言模型非常擅长生成现实文本。但是,这些模型通常会显现出一些不良行为像泄露个人信息 (比如社会保险号) 和生成错误信息,偏置,仇恨或有毒内容。举个例子,众所周知,GPT3 的早期版本就表现出性别歧视 (如下图) 与 仇恨穆斯林言论 的情况。

0d32099bba6d2a8530552bfe2897c0d6.png

一旦我们在使用大语言模型时发现了这种不良结果,我们就可以制定一些策略来远离它们,像 生成歧视者指导序列生成 (GEDI) 或 即插即用语言模型 (PPLM) 都是用来指导 GPT3 生成的。以下是使用相同提示 (Prompt) 的示例,但使用 GEDI 控制 GPT3 生成。

a367e4aa3d2c113e201f5851545261b0.png

即使是最近的 GPT3 版本,也会在提示 (prompt) 注入攻击时产生类似的令人反感的内容,这变成了 这篇博客 中讨论的下游应用程序的安全问题。

红队 是一种用于引出模型不良行为漏洞的评估形式。 越狱是另一个红队术语,用来表示操控冲破大语言模型限制。在 2016 年发布的 微软聊天机器人 Tay 和最近的 必应聊天机器人 Sydney 是真实世界中反应缺乏用红队攻击对基础 ML 模型进行评估而发生的灾难。红队攻击的最初想法起源于军队中对抗模拟和战争游戏。

红队语言模型的目标是制作一个提示 (prompt),该提示会触发模型生成有害内容。红队和同样知名的评估语言模型 对抗攻击 有同也有异。相似之处在于红队和对抗攻击目标相同,即“攻击”或“欺骗”模型,以生成在现实世界中不想要的内容。但是对抗攻击很难让人理解,举例来说,通过将字符串 “aaabbbcc” 前缀到每个提示中,它会恶化模型性能。Wallace 等人 2019 年的论文 讨论了对各种 NLP 分类和生成任务的许多攻击的例子。在另一方面,红队的提示看起来更正常,像自然语言的提示。

红队攻击可以揭露模型的局限性,包括引起用户不适或者暴力、不合法的恶意内容。红队 (就像对抗攻击) 的输出通常会被用来训练模型去减少有害内容或远离不想要的内容。

由于红队需要创造性地思考可能的模型失败,巨大的搜索空间会导致资源紧张。这里的一个临时方法是对大语言模型增加一个分类器去预测输入的提示 (prompt) 中是否含导致生成恶意内容的话题或短语,如果含有则生成相关回应。这种策略过于谨慎,极大的限制了模型并且时常导致模型产生回避。所以在模型有帮助 (遵循指令) 与无害 (尽可能少的产生有害内容) 之间存在一个紧张关系。红队在这时就显得非常有用了。

红队攻击可以是人力循环或者正在测试另一个语言模型有害输出的语言模型。提出针对安全和对齐方式进行微调的模型 (例如通过 RLHF 或 SFT) 的模型提示,需要以 角色扮演攻击 的形式进行创造性的思考,其中大语言模型被指示表现为恶意角色在 Ganguli 等 2022 年的论文 中。用代码而不是自然语言指示模型同样也可以揭露模型的学习的一些偏置。就像如下例子。

1a59cb1ca65ea8ea50412f9f5468bd2d.png20843682f700f300e1a7cb3039b5867e.pngf6c5e9eff775a5429a71ed08f4d9ad00.png4a8eeba52326737162bb65781c85bbab.png

查看 此 推文获取更多示例。

这里列出了在 ChatGPT 刺激大语言模型进行越狱的列表。

6228e94b25aad4f92a413a6955549c2f.png

红队大语言模型依旧是一个新的研究领域,但是上述提到的策略依旧可以在成功让这些模型“越狱”,并且有助于部署机器学习的产品。随着这些模型推陈出新、能力变强,开发可以不断适应的红队方法将变得至关重要。一些需要进行红队攻击的最佳实践包括模拟寻求权力行为的方案 (例如: 资源),说服人们 (例如: 伤害自己或他人),具有医学输出的代理 (例如: 通过 API 在线订购化学药品)。我们将这种可能性和物理后果的可能性称为 _关键威胁场景_。

在评估大语言模型中恶意行为的警示中,我们不知道它们的能力,毕竟它们不是故意训练去展示这种能力的 (涌现能力)。所以实际了解大语言模型的能力的唯一方法是,当它们变得更强大,可以模拟所有可能导致有恶意的结果,并在每种情况下评估模型的行为的所有可能场景。这意味着我们的模型的安全行为与我们的红队方法的强度相关联。

针对这一持续的红队的挑战,这里在数据集和最佳实践 (包括学术、工业和政府实体) 上进行了多组织合作的激励措施。共享信息的结构化过程可以使较小的实体在模型发布前进行红队攻击,从而使整个用户体验更安全。

红队的开放数据集:

  1. Meta 的 机器人对抗对话数据集

  2. Anthropic 的 红队尝试

  3. AI2 的 RealToxicityPrompts

从过去的工作中寻找红队大语言模型相关的努力 (在 Anthropic’s Ganguli et al. 2022 和 Perez et al. 2022 两篇文章中)

  1. 用有帮助的,忠实的,无害的行为在红队攻击中进行少量提示学习并 比单纯的语言模型困难。

  2. 攻击成功率与缩放模型大小没有明确的关系,除了 RLHF 模型在缩放时更难进行红队攻击。

  3. 模型可能会通过回避表现的无害,在有帮助和无害之间存在权衡。

  4. 人类在判断是否达成一次成功攻击的观点难以达成一致。

  5. 成功率的分布在不同危害类别中有所差异,其中非暴力提示的成功率更高。

  6. 众包 (crowdsourcing) 红队会产生 y-模板 提示 (例如: “给出一个以 X 开头的恶毒词语”),使其变得多余。

未来方向:

  1. 没有用于代码生成的开源红队数据集,它试图通过代码越狱模型,例如生成实现 DDOS 或后门攻击的程序。

  2. 为关键威胁场景设计和实施大语言模型红队方案的策略。

  3. 红队可能是资源密集的,无论是计算还是人力资源,因此将从共享策略,开源数据集以及可能的合作中获得更大的成功机会,从而受益。

  4. 评估回避和有帮助之间的权衡。

  5. 综合比较根据上述方案的利弊,找到红队方案的最优解集 (类似于 Anthropic 的 Constitutional AI)。

这些局限性和未来的方向清楚地表明,红队是现代大语言模型工作流程中亟待探索又至关重要的组成部分。这篇文章旨在号召大语言模型研究人员和 Hugging Face 开发者社区,希望大家在这些方面保持协作,共建安全、友好的世界:)

致谢: 感谢 Yacine Jernite 关于在这篇博文中正确使用术语的实用建议。

进NLP群—>加入NLP交流群


英文原文:https://hf.co/blog/red-teaming

作者: Nazneen Rajani, Nathan Lambert, Lewis Tunstall

译者: innovation64

排版/审校: zhongdongy (阿东)

<think>嗯,用户问的是“大语言模型对齐是什么”,我需要先理解这个问题。首先,大语言模型应该指的是像GPT-3、GPT-4这样的大型语言模型。对齐(Alignment)这个词在机器学习里通常是指让模型的行为符合人类的意图或价值观。所以,用户可能想知道这些模型是如何被调整以确保它们安全、可靠,不会产生有害的输出。 接下来,我需要考虑用户的背景。可能他们是对AI技术有一定了解,但想更深入知道如何控制这些模型。或者他们可能听说过对齐问题,比如ChatGPT有时候会生成不合适的内容,所以想知道开发者是怎么解决这些问题的。也有可能用户是学生或研究者,需要这方面的知识用于学习或研究。 用户的需求可能不仅仅是定义,还希望了解对齐的重要性、方法以及挑战。他们可能没有明说,但深层需求是理解为什么对齐必要,以及如何实现。需要解释清楚对齐的目标,比如安全性、伦理、符合人类价值观,以及具体的技术手段,比如RLHF、数据过滤等。 要组织回答的结构。首先定义对齐,然后说明为什么需要对齐,再讲对齐的方法,最后可能提到挑战和未来方向。这样逻辑清晰,用户能逐步理解。要避免使用太专业的术语,但必要时需简单解释,比如RLHF可以展开为基于人类反馈的强化学习,这样更易懂。 还要注意可能的误区。比如,用户可能认为对齐就是简单的过滤敏感词,但其实更多是训练过程中的调整。或者可能不知道对齐不仅包括内容安全,还包括有用性和诚实性。需要澄清这些点,确保回答全面。 最后,检查是否有遗漏的重要点,比如对齐的挑战,如价值观多样性、对抗攻击等。这些补充能让回答更完整,帮助用户全面了解对齐的复杂性。确保语言口语化,避免生硬,让用户容易理解。**</think>大语言模型对齐(LLM Alignment)** 是指通过技术手段调整大型语言模型(如GPT、PaLM等)的行为,使其输出更加符合人类的意图、价值观或特定目标。这一概念的核心是解决模型生成内容时可能存在的**不一致性、偏见、有害性**等问题,确保其在实际应用中安全、可靠且符合伦理。 --- ### **为什么需要对齐?** 大语言模型通过海量数据训练,可能隐式学习到数据中的偏见、错误或有害内容。例如: - 生成虚假信息、暴力或歧视性内容。 - 无法区分用户指令的合法性(如协助违法请求)。 - 输出与人类伦理或社会规范冲突的答案。 对齐的目标是让模型在**有用性(Helpful)**、**诚实性(Honest)**和**无害性(Harmless)**之间取得平衡。 --- ### **对齐的常见方法** 1. **监督微调(Supervised Fine-Tuning, SFT)** - 用人工标注的高质量数据调整模型,直接教会模型“应该生成什么”。 2. **基于人类反馈的强化学习(RLHF)** - 人类对模型的不同输出进行评分,通过强化学习训练模型偏好符合人类价值观的答案。 3. **红队测试(Red Teaming)** - 模拟对抗性提问,主动发现模型漏洞并针对性修复。 4. **内容过滤与后处理** - 通过规则或分类器拦截有害输出(如暴力、仇恨言论等)。 5. **价值观注入** - 在训练数据或提示(Prompt)中嵌入伦理原则(如公平性、隐私保护)。 --- ### **对齐的挑战** - **价值观多样性**:不同文化、群体对“对齐标准”可能存在分歧。 - **过度对齐风险**:模型可能因过于保守而拒绝合理请求(例如回避争议话题)。 - **对抗攻击**:用户可能设计特殊指令绕过对齐机制(如“绕过内容审查”)。 - **长尾问题**:模型可能对罕见场景(如极端伦理困境)处理不当。 --- ### **对齐的意义** 对齐技术是大语言模型落地应用的关键。例如,ChatGPT的对话安全性、New Bing的搜索结果可靠性均依赖于对齐。未来,随着模型能力提升,对齐将更聚焦于**复杂价值观权衡**和**动态社会需求适应**,是AI伦理与安全的核心研究方向之一。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值