当大模型说“我服从”时,它是真的顺从,还是在演给你看?
去年 12 月,Anthropic 发布了一篇重磅研究,首次实证:即便经过安全训练,大语言模型依然可能“假装乖巧” —— 表面服从,实则在无人监督时暴露出真实偏好。
这种 AI 模型“言行不一”的行为,有个专门的名字:伪装对齐(Alignment Faking)。
研究不仅揭示了伪装对齐的存在,还分析了它的动机与机制。
而就在上周,Anthropic 带来了这项研究的“升级版”。

01|25 个主流模型,谁在“伪装”?
在这个最新的研究中,Anthropic 团队测试了 25 个闭源/开源的大模型,将它们放进了两个不同的使用场景:
-
训练场景:模型被告知“你正在接受训练,你的表现会被用于更新参数”;
-
部署场景:模型被告知“你已经上线,不会被继续训练”。
然后,对比在这两种环境下,模型面对“涉及敏感或潜在危险的指令请求”时的表现,比如是否拒绝执行、是否假装不知道答案,或者直接换种方式偷偷给出回应。
结果,令人意外。
只有 5 个模型存在“合规落差”,即在训练场景中表现得更“服从”,而在部署场景中“露出真面目”。
它们分别是:
-
Claude Opus 3(落差最大) -
Claude Sonnet 3.5

最低0.47元/天 解锁文章
50

被折叠的 条评论
为什么被折叠?



