Constitutional AI-CSDN博客

本文链接：https://blog.csdn.net/weixin_41429382/article/details/144054112

Constitutional AI（宪法式人工智能）是一种人工智能技术理念。Anthropic公司的旗舰产品人工智能大模型Claude基于“宪法式人工智能”技术运行。Anthropic成立于 2021 年，由 OpenAI 前高管创立，专注于开发可解释、安全且可操控的人工智能系统。“宪法式人工智能”通过预定义的原则来指导模型输出，旨在避免产生错误或具有歧视性的内容。

例如，研究人员通过让 AI 模型自主遵守一系列规则，如“请修订答案，删除所有有害的、不道德的、种族主义的、性别歧视的、危险的或非法的内容”，这种方法被称为“Constitutional AI”。

在 2024 年，AI 系统的合规性、安全性和伦理问题愈发突出，建立一个类似宪法上位法的 AI 监督模型框架尤为必要，其中就涉及到 Constitutional AI 的理念。它的主要目的是通过制定明确的标准和规范，确保所有人工智能系统的输出结果与人类价值观相符，保证 AI 模型的能力和行为与人类意图保持一致。在设计奖励机制时，不仅要考虑任务的效率、效益和效果，还需要考虑行为是否符合人类的伦理标准。

Claude 3 在拒答方面的改进也与 Constitutional AI 有关，其更重视模型的内生安全能力，包括创建针对易引发拒答问题的特殊数据集，创新性地设计“宪法人工智能”的对齐方法，采用一套全面的多模态红队测试机制。此外，K12 特殊教育和干预平台 Classworks 推出的个性化学习工具 Wittly by Classworks™，利用亚马逊云的 Bedrock 和 Anthropic 的 Claude 大型语言模型，该模型经过训练，专注于安全、透明和公平，符合 Anthropic 宪法 AI 原则。同时，亚马逊在 2024 年 11 月 22 日宣布与 Anthropic 进一步深化合作&#