Anthropic 的三种 AI 研究类型
我们将 Anthropic 的研究项目分为三个领域:
能力:旨在使AI 系统在任何类型的任务上表现更好,包括写作、图像处理或生成、玩游戏等。使大型语言模型更高效或改进强化学习算法的研究都属于这一类别。AI能力生成并改进了我们在对齐研究中研究和使用的模型。我们通常不会发表这类工作,因为我们不希望加快 AI 能力进步的速度。此外,我们的目标是深思熟虑地展示前沿能力(即使没有发表)。我们在 2022 年春季训练了我们的模型 Claude 的第一个版本,并决定优先将其用于安全研究而不是公开部署。我们随后开始部署 Claude,因为它与公开的最先进技术之间的差距更小了。
对齐能力:本研究专注于开发新算法,以训练 AI 系统变得更有帮助、更诚实、更无害,以及更可靠、更强大,并且与人类价值观保持一致。Anthropic 目前和过去开展的此类工作包括辩论、扩展自动红队、宪法 AI(Constitutional AI)、去偏见和 RLHF(从人类反馈中进行强化学习)。这些技术通常具有实用性和经济价值,但它们不一定非要如此——例如,如果新算法效率相对较低,或者只有当 AI 系统变得更强大时才会变得有用。
对齐科学(Alignment Science):该领域专注于评估和理解 AI 系统是否真正对齐,对齐能力技术的效果如何,以及我们可以在多大程度上将这些技术的成功推广到更强大的 AI 系统。Anthropic 在这方面的工作包括广泛的机械可解释性(mechanistic interpretability)领域,以及我们用语言模型评估语言模型、红队测试以及使用影响函数研究大型语言模型中的泛化(如下所述)的工作。我们在诚实方面的一些工作处于对齐科学和对齐能力的边界上。
从某种意义上说,我们可以将对齐能力与对齐科学视为“蓝队”与“红队”的区别,其中对齐能力研究试图开发新的算法,而对齐科学则试图理解和揭示它们的局限性。
我们认为这种分类很有用的一个原因是,人工智能安全社区经常争论 RLHF 的开发(它也能产生经济价值)是否“真的”是安全研究。我们认为是的。实用的对齐能力研究是我们为更强大的模型开发技术的基础——例如,如果没有 RLHF 方面的先前工作,我们在宪法人工智能和人工智能生成的评估方面的工作,以及我们正在进行的自动红队和辩论方面的工作就不可能实现。对齐能力通过使人工智能系统更加诚实和可纠正,使得这些系统能够协助对齐研究。此外,证明迭代对齐研究对于制作对人类更有价值的模型很有用,也可能有助于激励人工智能开发人员投入更多资金来尝试使他们的模型更安全并检测潜在的安全故障。
如果事实证明人工智能安全相当容易处理,那么我们的对齐能力工作可能是我们最有影响力的研究。相反,如果对齐问题更加困难,那么我们将越来越依赖对齐科学来寻找对齐能力技术中的漏洞。如果对齐问题实