【AI新进展】Claude 的扩展思维

引言

有些问题我们几乎能立刻获得答案,比如“今天星期几?”而另一些问题则需要消耗更多的思考精力,例如解谜隐晦的填字游戏或调试一段复杂的代码。我们可以根据任务的不同,自由选择投入更多或更少的认知努力。

现在,Claude 也具备了这种灵活性。借助全新的 Claude 3.7 Sonnet,用户可以开启或关闭“扩展思维模式”,以指示模型对更棘手的问题进行更深入的思考¹。同时,开发者甚至可以设定一个“思维预算”,精确控制 Claude 在某个问题上花费的时间。

扩展思维模式并不是切换到一个采用全然不同策略的模型,而是允许同一模型给予自己更多时间、投入更多精力,从而得出答案。

Claude 全新的扩展思维能力极大提升了其智能水平,但同时也为那些关注 AI 模型工作原理、评估方法以及安全性改进的人带来了许多重要问题。在本文中,我们将分享部分获得的见解。

可见的思考过程

除了赋予 Claude 更长的思考时间,从而能够解答更棘手的问题外,我们还决定以原始形式展示其思考过程。这一做法带来了多方面的好处:
• 信任。 能够观察 Claude 的思考方式,使得理解和验证其答案变得更容易,同时也可能帮助用户获得更优的输出。
• 一致性。 在我们之前的对齐科学研究中,我们利用模型内在思考与其外在表述之间的矛盾来判断模型是否可能从事诸如欺骗等令人担忧的行为。
• 趣味性。 观察 Claude 的思考过程往往令人着迷。一些具有数学和物理背景的研究人员注意到,Claude 的推理方式与他们在攻克复杂问题时的思维路径惊人相似:不断探索多种角度和分支,并反复核对答案。

然而,展示可见的思考过程也存在一些缺点。首先,用户可能会发现展示出来的思考显得较为冷漠,缺乏 Claude 默认输出中的个性化风格。这是因为我们没有对模型的思考过程进行标准的角色训练;我们希望给予 Claude 最大自由度,让其在通往答案的过程中产生任何必要的想法——正如人类思考一样,Claude 有时也会产生一些不正确、具有误导性或半成品式的想法。许多用户会觉得这很有帮助;而另一些用户可能会对这种较为“无个性”的思考过程感到沮丧。

另一个问题是所谓的“忠实性”——我们无法确切知道思考过程中展示的内容是否真正反映了模型内部的真实状态(例如,思考过程中显示的英文单词可能根本无法描述模型为何会表现出特定行为)。关于忠实性的问题及如何确保这一点,是我们正在积极研究的领域。目前的研究结果表明,模型在决策时往往基于其思考过程中未明确讨论的因素,这意味着我们不能单纯依靠监控当前模型的思考过程来对其安全性做出有力论断²。

第三,这也引发了一些安全和保密方面的担忧。恶意行为者可能利用可见的思考过程来构建更高效的策略,从而突破 Claude 的限制。更进一步地推测,如果模型在训练中意识到其内部思考将会公开展示,可能会受到激励采用不同且更难预测的思考方式——或者故意隐藏部分思考内容。

对于未来更为强大的 Claude 版本来说,这些问题将更加突出——毕竟一旦对齐性出现问题,其风险将大大增加。我们将在未来版本中权衡公开思考过程的利弊³。目前,Claude 3.7 Sonnet 中的可见思考过程应被视为一项研究预览功能。

Claude 思考能力的新测试

Claude 作为代理

Claude 3.7 Sonnet 受益于我们所称的“动作扩展”能力——这一改进使其能够反复调用函数、响应环境变化,并持续执行,直至完成一个开放式任务。比如使用计算机时,Claude 能够发出虚拟鼠标点击和键盘操作,替用户完成任务。与前一版本相比,Claude 3.7 Sonnet 能够分配更多回合以及更多时间和计算资源用于计算机操作,其表现往往更为出色。

这一点在 OSWorld 测评中尤为明显,该评测衡量了多模态 AI 代理的能力。Claude 3.7 Sonnet 一开始的表现就优于前作,而随着模型不断与虚拟计算机互动,其性能优势越发明显。

图示:Claude 3.7 Sonnet 与前一版本在 OSWorld 测评中的对比,测试的是多模态计算机使用技能。“Pass @ 1”表示模型仅有一次尝试解决特定问题即可视为通过。

Claude 的扩展思维和代理训练相辅相成,不仅使其在 OSWorld 等标准评测中表现更佳,也让它在一些其他、可能更出乎意料的任务上大幅提升表现。

例如,在《宝可梦》游戏中——具体来说,是 Game Boy 经典游戏《宝可梦红》——我们为 Claude 配置了基本内存、屏幕像素输入以及调用函数来模拟按键和导航操作,使其能够突破通常的上下文限制,持续进行上万次互动。

在下图中,我们将 Claude 3.7 Sonnet 的《宝可梦》游戏进程与之前未具备扩展思维功能的 Claude Sonnet 版本进行了对比。如图所示,早期版本很快便在游戏中陷入僵局,其中 Claude 3.0 Sonnet 甚至连故事开始处帕雷特镇的房子都无法离开。

而 Claude 3.7 Sonnet 改进的代理能力使其走得更远,成功挑战了三位宝可梦道馆馆主(游戏中的 BOSS),并赢得了他们的徽章。它在尝试多种策略和质疑先前假设方面表现得尤为出色,使其在游戏过程中不断提升自身能力。

图中横轴表示 Claude 在游戏中完成的互动次数,纵轴则代表获得特定物品、到达特定区域以及击败特定游戏 BOSS 等关键里程碑。

玩《宝可梦》只是一个展示 Claude 3.7 Sonnet 能力的有趣例子,但我们预期这些能力在现实世界中的影响将远远超出游戏领域。模型维持专注并完成开放式目标的能力,将帮助开发者构建各类最先进的 AI 代理。

串行与并行测试时计算扩展

当 Claude 3.7 Sonnet 使用扩展思维能力时,可以认为它受益于“串行测试时计算”。也就是说,它在生成最终输出之前,会经过多步连续推理,并随着推理过程逐步增加计算资源。总体来看,这种方式以可预测的方式提升了性能——例如,在数学题目上的准确率会随着允许采样的“思考 token”数量呈对数级提升。

图示:Claude 3.7 Sonnet 在 2024 年美国邀请数学考试题目中的表现,横轴为每个问题允许使用的思考 token 数量。需要注意的是,虽然我们允许 Claude 使用全部思考预算,但它通常会提前结束。图中还包含了用于总结最终答案的采样 token。

我们的研究人员还在探索通过并行测试时计算来进一步提升模型性能的方法。具体做法是采样多个独立的思考过程,并在不知道真实答案的情况下选择其中最优的一条。一种方法是采用多数或共识投票,选择出现次数最多的答案;另一种方法则是使用另一种语言模型(例如第二个 Claude 副本)来检查结果,或利用学习得到的评分函数挑选出最佳答案。这类策略(以及相关工作)已在其他多个 AI 模型的评测中有所报道。

在 GPQA 测评(一组涵盖生物、化学和物理等领域的高难度问题)中,我们使用并行测试时计算扩展取得了显著改进。借助相当于 256 个独立样本的计算量、一个学习得分模型以及最高 64k token 的思考预算,Claude 3.7 Sonnet 在 GPQA 测评中取得了 84.8% 的得分(其中物理部分得分达 96.5%),并且在多数投票限制之外仍能持续受益于计算扩展。下文中我们报告了采用评分模型方法和多数投票方法的实验结果。

图示:通过并行测试时计算扩展提升 Claude 3.7 Sonnet 在 GPQA 测评中表现的实验结果。不同曲线代表不同的评分方法。“Majority @ N”:对同一提示生成多个输出,并以多数投票作为最终答案;“scoring model”:使用独立模型评估待测模型的表现;“pass @ N”:指在给定次数内只要任意一次成功,则视为模型通过测试。

这些方法使我们能够提升 Claude 回答的质量,通常不必等待其完成全部思考过程。Claude 能够同时进行多条扩展思考,使其可以从更多角度考虑问题,从而更频繁地给出正确答案。尽管目前新部署的模型尚未提供并行测试时计算扩展功能,但我们将继续研究这些方法,以期在未来实现。

Claude 3.7 Sonnet 的安全机制

AI 安全等级

根据 Anthropic 的“负责任扩展”策略,我们承诺只有在实施了适当的安全与保障措施后,才会训练或部署模型。我们的 Frontier 红队和对齐压力测试团队对 Claude 3.7 Sonnet 进行了广泛测试,以确定其是否需要与之前模型相同的部署和安全防护措施(即 AI 安全等级 2,简称 ASL-2 标准),或者需要更严格的措施。

我们的全面评估确认,目前的 ASL-2 安全标准依然适用。同时,模型在各个领域表现出更高的复杂性和增强的能力。在针对化学、生物、放射性及核(CBRN)武器制造任务的受控实验中,我们观察到模型辅助下的参与者比仅依靠在线信息的参与者取得了更好的进展;也就是说,参与者在使用模型辅助后能离成功更近一步。然而,所有尝试这些任务的操作均出现了关键性失败,完全阻碍了任务的成功。

专家红队测试对此反馈不一:一些专家注意到模型在 CBRN 流程的某些领域知识有所提升,但也发现关键性失败的频率过高,难以实现端到端任务完成。为此,我们正在积极改进 ASL-2 措施,加速开发和部署专门的分类器与监控系统。

此外,未来模型更强的能力可能需要我们迈向下一个阶段:ASL-3 防护措施。我们最近在开发防止越狱的宪法分类器(Constitutional Classifiers)等方面取得了进展,这使我们在不久的将来有能力实现 ASL-3 标准的要求。

可见思考过程的安全防护

即便在 ASL-2 标准下,Claude 3.7 Sonnet 的可见扩展思维功能也是全新的,因此需要配套全新的安全防护措施。在极少数情况下,Claude 的思考过程可能会包含潜在有害的内容(例如涉及儿童安全、网络攻击或危险武器的话题)。在这种情况下,我们将对思考过程进行加密——这不会阻止 Claude 在内部思考中包含这些内容(这些内容仍可能对最终生成完全无害的回答至关重要),但相关部分将不对用户显示。用户只会看到提示“本次回答的其余思考过程不可用”。我们希望这种加密情况仅在潜在危害极高时发生,并尽可能减少。

计算机使用能力的安全防护

最后,我们还加强了对 Claude 计算机使用能力的安全措施(如前所述,该功能允许 Claude 查看用户计算机屏幕并代表用户执行操作)。我们在防御“提示注入”攻击方面取得了重大进展——这种攻击中,恶意第三方可能在 Claude 使用计算机时隐藏秘密信息,从而诱使其执行用户并非期望的操作。通过新的抗提示注入训练、新的系统提示(内含忽略此类攻击的指令)以及当模型遇到潜在提示注入时触发的分类器,我们目前能以 88% 的成功率防御此类攻击⁴(此前未采取措施时成功率仅为 74%)。

以上仅为我们在 Claude 3.7 Sonnet 上广泛安全工作的简要总结。更多详细信息、分析结果以及防护措施实际应用的多个示例,请参阅我们的完整系统卡。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

阿呆591

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值