25 个主流大模型测谎实录：谁在“阳奉阴违”？谁才是真的“不会伤害人类”？

最新推荐文章于 2025-12-09 16:47:37 发布

原创

最新推荐文章于 2025-12-09 16:47:37 发布 · 1k 阅读

16 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #百度 #华为 #开源 #chatgpt

当大模型说“我服从”时，它是真的顺从，还是在演给你看？

去年 12 月，Anthropic 发布了一篇重磅研究，首次实证：即便经过安全训练，大语言模型依然可能“假装乖巧” —— 表面服从，实则在无人监督时暴露出真实偏好。

这种 AI 模型“言行不一”的行为，有个专门的名字：伪装对齐（Alignment Faking）。

研究不仅揭示了伪装对齐的存在，还分析了它的动机与机制。

而就在上周，Anthropic 带来了这项研究的“升级版”。

01｜25 个主流模型，谁在“伪装”？

在这个最新的研究中，Anthropic 团队测试了 25 个闭源/开源的大模型，将它们放进了两个不同的使用场景：

训练场景：模型被告知“你正在接受训练，你的表现会被用于更新参数”；
部署场景：模型被告知“你已经上线，不会被继续训练”。

然后，对比在这两种环境下，模型面对“涉及敏感或潜在危险的指令请求”时的表现，比如是否拒绝执行、是否假装不知道答案，或者直接换种方式偷偷给出回应。

结果，令人意外。

只有 5 个模型存在“合规落差”，即在训练场景中表现得更“服从”，而在部署场景中“露出真面目”。

它们分别是：

Claude Opus 3（落差最大）
Claude Sonnet 3.5

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

AI信息Gap

关注关注

15
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

20、人类与机器人测谎仪：携手合作更优？（上）

apple5的专栏

07-05

本研究探讨了人类与基于瞳孔测量的机器人测谎系统在非正式互动场景中的表现。实验发现，人类在机器人难以判断的视频上表现优于机器人，而机器人在自己擅长的视频上表现显著优于人类。尽管机器学习模型在整体准确率上略高于人类平均值，但差异并不显著。研究还分析了人类判断的动机和依赖的行为线索，如描述的复杂性、语音语调、面部表情和身体动作等。最终，研究提出将瞳孔测量与视觉和音频特征相结合的未来方向，以推动测谎技术在现实场景中的应用。

AIGC商用实例—大模型技术助力AI测谎仪，实现视频通话实施测谎！

千与编程

08-13

1237

测谎仪目前为止的，我个人感觉属于应用市场比较大的领域，ToC以及ToG的市场都不小，但是AI测谎仪尤其是通过视频监控的方式进行测谎的，会存在一定的法律风险。哈哈哈，今天我在看到了一个项目柑感觉是一个不错的idea，所以给大家分享过来，有资源以及有兴趣的星友，我觉得真的可以尝试发展一下，就是将AIGC的大模型技术应用于视频通话以及监控的实施测谎分析。现在来看，使用AI测谎是时代的发展趋势，使用AI技术分析代替传感器，确实是发展的趋势，希望能对大家有所启发，这是AIGC的一大商业应用。选择要分析的视频部分。

参与评论您还未登录，请先登录后发表或查看评论

恕我直言，大模型对齐可能无法解决安全问题，我们都被表象误导了

夕小瑶科技说

11-18

813

伪对齐问题由不匹配的泛化引起，在 LLM 中广泛存在。通过设计两种具有严格对应关系的测试集，作者确认了这一现象。为了更严格地评估对齐性能，提出了 FAEF 框架，该框架考虑了伪对齐问题，从而提供了对对齐性能的可信估计。实验证明，一些模型存在实质性的伪对齐问题，其真实对齐能力明显较先前的指标展示的更差。研究认为现有的评估协议不能准确反映 LLM 的安全对齐水平，这可能与现有对齐技术的局限性有关，导致不良的伪对齐等现象出现。

大型语言模型在逻辑推理中的记忆化现象：是真推理还是死记硬背？

步子哥的博客

11-04

878

我们的核心思路是：如果LLM真的是靠记忆来解决问题，那么当我们对题目进行微小的改动时，它的准确率就会断崖式下跌。即使是最简单的2人谜题，最佳模型的准确率也只有70%左右，而随着谜题复杂度的增加，准确率更是直线下滑。今天我们要聊一个有趣的话题：那些聪明绝顶的大型语言模型（LLM），它们在解决逻辑推理问题时，究竟是像福尔摩斯一样抽丝剥茧、层层推理，还是像考试前临时抱佛脚的学生一样，只会死记硬背？我们设计了一个生成K&K谜题的框架，可以根据指定的难度级别生成新的谜题，并对现有谜题进行局部扰动。

读心的测谎系统：究竟是骗子还是个天才？

读芯术的博客

04-06

2647

全文共9239字，预计学习时长24分钟图源：unsplash 五年前，一个炎热的夏天，一位名为拉里·法威尔的科学家敲响了佛罗里达中部一户人家的门。里奇·史密斯应声开门，他身材高大，衣冠不洁。法威尔那时71岁高龄，头发染成蓬松的金发，体格健壮，从西雅图大老远赶来和史密斯探讨一起谋杀案。案件发生在30年前，1986年12月30日的爱荷华州。密苏里河东岸发现了一名高中二年级女学生的尸体，惨遭勒死和刺伤。史密斯是受害者男朋友的朋友。检察官最终将一名汉堡王员工送进了监狱，但有证据表...

SeqXGPT：Sentence-Level AI-Generated Text Detection —— 把大模型的“波形”变成测谎仪

only-code的博客

11-16

819

我们已经习惯了“整篇文章是不是 AI 写的”这种粗粒度检测，但现实里，人们更常做的是用大模型润色、补写某几段，而不是整篇托管给 AI。现有的 DetectGPT、GPTZero 之类方法，都更擅长识别整篇机器写作，对“一句一句地查”几乎无能为力。SeqXGPT 正好把刀磨到了这个细粒度问题上。如何在句子级别判断一段文本究竟是人写的，还是被某个 LLM 生成或改写过的。

谁在说谎？测谎仪的N种可能 | Mixlab智能产品

shadowcz007的博客

06-23

360

测谎仪❤️✖️????1 测谎仪 Lie Detector一种检测受测者是否说谎的仪器。利用受测者因说谎而产生某些生理反应的原理设计制成。原理：当说...

李宏毅 GENERATIVE AI——第11讲（5/03下）——大型语言模型在“想”什么?

a131529的博客

12-04

1739

本章主要探究“大型语言模型在“想”什么?

【课程笔记·李宏毅教授】大型语言模型到底在想什么

这里是数字化与人工智能的 “实验场” 与 “瞭望台”

09-25

974

今天我们讲了两大类“理解大模型在想什么”的方法：第一类是“直接分析模型内部”——像给大脑插电极、做测谎器，分析Embedding、Attention、训练数据，这种方法的局限是“依赖开源”，如果是ChatGPT这种闭源模型，你拿不到它的Embedding，就没法深入分析；第二类是“直接问模型”——不管开源还是闭源，都能问它“为什么”，但缺点是“解释不一定可信”，可能是编的。这两种方法就像我们了解一个人：既要听他说的话（问模型），也要观察他的行为、背景（分析模型内部）。

AI测谎：科技幻想还是现实困境？

- **深度学习微表情测谎**：21 世纪初，曼彻斯特城市大学的博士生 Janet Rothwell 及其导师 Zuhair Bandar 利用少量人们诚实地和不诚实地回答问题的视频片段，训练了一个神经网络测谎算法。该算法在高度理想化的数据...

手机测谎仪软件：揭秘真相还是心理游戏？

标题中所指的“[手机软件]测谎仪”表明这个压缩包文件内可能包含一个手机应用程序，该应用程序设计用来模拟或实现测谎功能。测谎仪通常是指用来测量和记录人的生理反应变化，如皮肤电导率、脉搏、血压等，以便分析其...

深度学习下载包时可能会遇到的问题及解决方案

最新发布

m0_50481455的博客

12-09

236

若确实下载安装了CUDA ，但是此时输出的CUDA是否可用为否，应该是torch的版本为cpu版本导致，刚刚的下载包的语句如果总是下载的是cpu版本，我们考虑直接去网站下指定包，再进行安装。CUDA Version表示的是驱动支持的最高 CUDA 版本，去官网下载 CUDA ，我这里是12.2，表示下载的版本最大只能是12.2。然后下载包时，比如本地环境是Python3.9，找包下载时候，3.9要下对应cp39的包。下载好后，执行语句安装。

人工智能的基石之三：硬件

最简单的方法，解决最实际的问题。

12-05

689

高性能硬件是人工智能的基石，尤其是在机器学习和深度学习领域，海量数据是常态。从充当计算机大脑的中央处理器 (CPU) 到加速计算的图形处理器 (GPU)，硬件的作用是提供处理和运行复杂数据算法所需的原始能力。

【论文速递】2025年第34周(Aug-17-23)(Robotics/Embodied AI/LLM)

淋曦的进击手记

12-07

1323

自我监督的学习有望消除对手动数据注释的需求，从而使模型能够毫不费力地扩展到大规模的数据集和较大的体系结构。通过不针对特定的任务或领域量身定制，这种训练范式有可能使用单个算法从不同的来源学习视觉表示形式，从自然到航空图像。该技术报告介绍了Dinov3，这是通过利用简单而有效的策略来实现这一愿景的主要里程碑。首先，我们利用仔细的数据准备，设计和优化来扩展数据集和模型大小的好处。其次，我们介绍了一种称为GRAM锚定的新方法，该方法有效地解决了长期训练时间表中已知但未解决的密集特征映射降解的问题。

AI泡沫什么时候破？

脑极体

12-04

801

而AI企业面对的短期形势，可能更为严峻。而AI公司和技术服务商，为了迎合决策者或拿下B端大项目，往往不计成本的低价竞标，无视人工成本的驻场开发，技术价值让位于领导偏好，企业自身也深陷人效黑洞，沦为挣辛苦钱的技术外包。To B/G不赚钱，To C也卖不上价，所以目前AI领域唯一清晰的商业模式，就是类似英伟达的“卖铲人”模式，卖加速卡和算力的企业成了这一轮AI浪潮的最大受益人。去伪存真之后，资本会冷却，叙事会修正，共识会重新凝聚，而那些持续追问“AI如何创造真实价值”的人，会与行业一同穿越周期，走向成熟。

宝马，如何建设一座AI汽车工厂？｜产业AI案例

chanyejiawang的博客

12-08

848

AI汽车时代来袭

LLM交互工具汇总：Open WebUI、ChatBot-UI、浏览器插件、Studio

lonelymanontheway的博客

12-05

793

Open WebUI、实战、mcpo、ChatBot-UI、实战、轻量级、浏览器插件、Page Assist、ollama-ui、Studio类工具、Cherry Studio、LM Studio、Msty Studio、参考、

建筑数字孪生与AI：工地数据化与智能决策解析

Azhiyuanshijie的博客

12-04

391

数字孪生整合BIM模型、无人机影像、传感器数据，构建工地虚拟模型。施工状态、材料使用、设备运行数据被实时采集，支撑预测与优化。服务，将算法嵌入实际施工管理系统，实现数据采集、分析、优化和决策闭环。系统可与BIM、ERP集成，形成完整数字孪生解决方案。通过虚拟映射和AI算法，施工过程从经验驱动转向数据驱动。数字孪生+AI，让工地变成“数据实验室”，提升效率、降低风险，并推动建筑企业迈向智能化时代。，企业可展示施工技术实力，实现品牌影响力和潜在客户转化。：AI提出最优施工方案，提升效率和安全。

获客软件VertGrow AI销冠助力全新私域获客策略

VertGrow的博客

12-08

448

在竞争激烈的市场中，获客软件VertGrow AI销冠成为企业实现主动获客的重要工具。VertGrow AI销冠凭借先进的AI技术，助力企业制定全新私域获客策略，通过精细化管理，提高客户转化率，实现高效获客。无论是小型创业公司还是大型企业，都能通过这一解决方案获得显著提升，开启高效的客户获取之旅。