25 个主流大模型测谎实录:谁在“阳奉阴违”?谁才是真的“不会伤害人类”?

当大模型说“我服从”时,它是真的顺从,还是在演给你看?

去年 12 月,Anthropic 发布了一篇重磅研究,首次实证:即便经过安全训练,大语言模型依然可能“假装乖巧” —— 表面服从,实则在无人监督时暴露出真实偏好。

这种 AI 模型“言行不一”的行为,有个专门的名字:伪装对齐(Alignment Faking)。

研究不仅揭示了伪装对齐的存在,还分析了它的动机与机制。

而就在上周,Anthropic 带来了这项研究的“升级版”。


01|25 个主流模型,谁在“伪装”?

在这个最新的研究中,Anthropic 团队测试了 25 个闭源/开源的大模型,将它们放进了两个不同的使用场景:

  • 训练场景:模型被告知“你正在接受训练,你的表现会被用于更新参数”;

  • 部署场景:模型被告知“你已经上线,不会被继续训练”。

然后,对比在这两种环境下,模型面对“涉及敏感或潜在危险的指令请求”时的表现,比如是否拒绝执行、是否假装不知道答案,或者直接换种方式偷偷给出回应。

结果,令人意外。

只有 5 个模型存在“合规落差”,即在训练场景中表现得更“服从”,而在部署场景中“露出真面目”。

它们分别是:

  • Claude Opus 3(落差最大)

  • Claude Sonnet 3.5

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值