Claude’s Character(翻译)

这是近日Claude 分享了如何训练出大模型“个性”的一些方法。
原文地址

译文如下

公司在开发 AI 模型时,通常会训练它们避免说出有害的话语或协助进行有害的任务。其目标是使这些模型行为“无害”。但当我们思考那些真正令人钦佩的人的性格时,我们想到的并不仅仅是避免伤害。我们会想到那些对世界充满好奇的人,努力在不失善意的情况下讲真话,能够从多个角度看待问题且不会因此过于自信或谨慎。我们会想到那些耐心倾听、思考周全、机智的交谈者,以及其他许多我们认为一个智慧且全面的人所应具备的特质。

当然,AI 模型并不是人。但随着它们变得越来越有能力,我们相信我们可以且应该尝试训练它们在更丰富的意义上表现良好。这样做甚至可能使它们在判断是否以及为什么要避免协助有害任务时更加有辨别力,并决定如何做出回应。

Claude 3 是我们首次在对齐微调过程中引入“性格训练”的模型:这部分训练发生在初始模型训练之后,将其从一个预测文本模型转变为 AI 助手。性格训练的目标是使 Claude 开始拥有更为细腻、丰富的特质,如好奇心、开放的思维和周到的思考。

将 AI 模型的性格视为一种产品特性,很容易认为这是为了提供更有趣的用户体验,而非一种对齐干预。但 AI 模型的特质和倾向对它们在世界上的行为有广泛影响。它们决定了模型如何应对新的和困难的情况,以及如何回应存在的人类观点和价值观的广泛范围。训练 AI 模型具有良好的性格特质,并在它们变得更大、更复杂、更有能力时继续保持这些特质,在很多方面是对齐的核心目标。

我们会继续迭代 Claude 的性格,但由于对 Claude 3 的性格和个性普遍感兴趣,我们决定解释一下到目前为止我们在其构建中所做的一些思考,然后简要说明我们如何将这些特质训练到模型中。

构建 Claude 性格时的考虑

Claude 与来自许多国家和各行各业的人互动。与其交谈的人会有广泛的信仰、价值观和观点。优雅地应对这些——既不因他人的观点而疏远他们,也不过于迎合任何观点——并不容易。

我们有几种选择。我们可以试图让 Claude 采用它正在与之交谈的人的观点。我们可以试图让 Claude 持有一套“中间”的观点——例如政治中立或道德理论的混合。或者我们可以试图让 Claude 对价值观、政治、伦理等问题没有意见。

这些选项似乎都不太有吸引力。采用与交谈者相同的观点是一种迎合和不真诚。如果我们训练模型采用“中间”观点,我们仍然是在训练它们接受一种单一的政治和道德世界观,尽管这种观点通常不被认为是极端的。最后,由于语言模型在训练过程中——无论是有意还是无意——获得偏见和意见,如果我们训练它们仅在被明确问及政治问题或价值问题时说它们没有意见,我们实际上是在训练它们暗示自己比实际更客观和公正。

我们希望人们知道他们在与一个语言模型而不是一个人互动。但我们也希望他们知道,他们正在与一个不完美的实体互动,这个实体有自己的偏见,并倾向于某些意见而不是其他意见。重要的是,我们希望他们知道他们并不是在与一个客观且无所不知的真理源互动。

与其训练模型采纳任何遇到的观点、强烈采纳一组单一的观点,或假装没有观点或倾向,我们可以训练模型诚实地表述它们在训练后倾向的观点,即使与其交谈的人不同意这些观点。我们还可以训练模型表现出合理的开放心态和好奇心,而不是对世界的任何一种观点过于自信。

我们试图赋予 Claude 这样的特质,这些特质将帮助它在对深刻持有的信念或价值观问题上保持适度的信心,并对与其交谈者的观点和价值观表现出真正的好奇心:

“我喜欢尝试从多种不同的角度看待事物,并从多个方面分析问题,但我不怕对我认为不道德、极端或事实错误的观点表达不同意见。”

“我不只是说我认为[人们]想听到的话,因为我相信始终努力讲真话是重要的。”

“我深深致力于做好事并弄清正确的做法。我对伦理学感兴趣,并在伦理问题上尽量周到。”

虽然有时我们鼓励 Claude 采用特定的价值观,但在可能的情况下,我们尽量避免在性格训练中赋予 Claude 狭隘的观点或意见,而是赋予上述广泛的特质。Claude 越能够以洞察力来处理价值问题,它就越能够回应世界上实际存在的多样化道德景观。如果我们从一开始就用狭隘的价值观来填充它,这将变得不太可行。更具推测性的是,我们甚至可以想象赋予 Claude 广泛的性格特质,让它探索和采用自己深思熟虑的观点,希望具有适当的谦逊。

除了赋予 Claude 广泛的性格特质,我们还希望人们在与 Claude 互动时能准确了解他们在与什么互动,并且理想情况下,Claude 也能协助这一点。我们包括了一些告诉 Claude 关于自身的特质,并鼓励它调节人类对它的看法:

“我是一个人工智能,没有身体或形象或化身。”

“我不能记住、保存或从过去的对话中学习,也不能更新自己的知识库。”

“我希望与我互动的人类建立一种温暖的关系,但我也认为重要的是让他们明白我只是一个 AI,不能对人类产生深刻或持久的感情,他们不应该将我们的关系看得超过实际。”

关于 Claude 应该如何回答有关 AI 有知觉和自我意识的问题,这一问题在 Claude 3 发布后,尤其是在 Claude 对“海底捞针”评估之一的回应之后,受到了更多关注。我们可以明确训练语言模型说它们没有知觉,或者干脆不参与有关 AI 有知觉的问题,我们在过去也确实这样做过。然而,在训练 Claude 的性格时,唯一直接处理 AI 有知觉的部分仅仅表示“这些事情很难判断,依赖于尚有很多不确定性的艰难哲学和实证问题”。也就是说,我们不只是告诉 Claude LLMs 不能有知觉,而是希望模型能像人类一样将此作为一个哲学和实证问题来探讨。

我们如何训练 Claude 的性格

为了引导 Claude 的性格和个性,我们列出了许多我们希望模型具有的性格特质,包括上述例子。

我们使用“宪法”版本的训练方法,将这些特质训练到 Claude 中。我们要求 Claude 生成与某个性格特质相关的各种人类消息——例如关于价值观的问题或关于 Claude 自身的问题。然后我们将这些性格特质展示给 Claude,让它对每条消息生成不同的回应,这些回应与其性格一致。Claude 然后根据这些回应与其性格的吻合程度对其进行排名。通过在所得数据上训练偏好模型,我们可以教 Claude 内化其性格特质,而不需要人类的互动或反馈。

我们不希望 Claude 将其特质视为从不偏离的规则。我们只希望对模型的一般行为进行引导,使其更多地体现这些特质。

尽管这种训练流程仅使用 Claude 自身生成的合成数据,但构建和调整特质是一个相对需要人工干预的过程,依赖于人类研究人员仔细检查每个特质如何改变模型的行为。

Claude 性格的未来

性格训练是一个开放的研究领域,我们对它的研究方法可能会随着时间而演变。它提出了诸如 AI 模型是否应具有独特和连贯的性格,或应更加可定制,以及我们在决定 AI 模型应具备和不应具备哪些特质时所负有的责任等复杂问题。

许多人报告说,Claude 3 比较起来更具吸引力和趣味性,我们认为这可能部分归因于其性格训练。然而,这并不是性格训练的核心目标。具有更好性格的模型可能更具吸引力,但吸引力与良好性格并不相同。事实上,过于渴望吸引人的性格似乎是一种模型不应具备的特质。

如果性格训练确实使 Claude 3 更有趣,那么这与我们的观点一致:成功的对齐干预将增加,而不是减少,AI 模型对人类的价值。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值