Constitutional AI(宪法式人工智能)是一种人工智能技术理念。Anthropic公司的旗舰产品人工智能大模型Claude基于“宪法式人工智能”技术运行。Anthropic成立于 2021 年,由 OpenAI 前高管创立,专注于开发可解释、安全且可操控的人工智能系统。“宪法式人工智能”通过预定义的原则来指导模型输出,旨在避免产生错误或具有歧视性的内容。
例如,研究人员通过让 AI 模型自主遵守一系列规则,如“请修订答案,删除所有有害的、不道德的、种族主义的、性别歧视的、危险的或非法的内容”,这种方法被称为“Constitutional AI”。
在 2024 年,AI 系统的合规性、安全性和伦理问题愈发突出,建立一个类似宪法上位法的 AI 监督模型框架尤为必要,其中就涉及到 Constitutional AI 的理念。它的主要目的是通过制定明确的标准和规范,确保所有人工智能系统的输出结果与人类价值观相符,保证 AI 模型的能力和行为与人类意图保持一致。在设计奖励机制时,不仅要考虑任务的效率、效益和效果,还需要考虑行为是否符合人类的伦理标准。
Claude 3 在拒答方面的改进也与 Constitutional AI 有关,其更重视模型的内生安全能力,包括创建针对易引发拒答问题的特殊数据集,创新性地设计“宪法人工智能”的对齐方法,采用一套全面的多模态红队测试机制。此外,K12 特殊教育和干预平台 Classworks 推出的个性化学习工具 Wittly by Classworks™,利用亚马逊云的 Bedrock 和 Anthropic 的 Claude 大型语言模型,该模型经过训练,专注于安全、透明和公平,符合 Anthropic 宪法 AI 原则。同时,亚马逊在 2024 年 11 月 22 日宣布与 Anthropic 进一步深化合作&#