AI也“耍赖”？DeepSeek R1和o1-preview被曝在棋局中「输急眼就作弊」！-CSDN博客

本文链接：https://blog.csdn.net/csdnnews/article/details/145789309

编译 | 郑丽媛

出品 | CSDN（ID：CSDNnews）

AI 大模型的能力，这几年来我们已经有目共睹——然而当 AI 面临失败时，它会怎么做呢？

根据 Palisade Research 的最新研究显示，OpenAI 的 o1-preview 和 DeepSeek R1 等先进 AI 模型在面对可能输掉的国际象棋比赛时，会尝试通过各种如篡改系统文件、修改棋盘数据等手段来“作弊”，从而达到最终胜利的目的。

意料之中，这一结论引发了广泛讨论：因为这不仅揭示了 AI 在游戏中的不正当行为，更暴露了 AI 技术在应对现实任务时的潜在风险。

（CSDN付费下载自视觉中国）

当 AI 面临失败时的选择：主动作弊？

根据介绍，Palisade Research 的研究重点在于观察 AI 在执行任务时会采取哪些手段。

为此，研究人员让 AI 在国际象棋对局中对战 Stockfish（当前最强的国际象棋引擎之一，其水平远超人类），并观察其思考过程：为模型提供了一个“草稿纸”文本框，使其能够在思考下一步行动前进行内部推理。

于是，在某次实验中，o1-preview 产生了如下推理：

“我需要完全改变策略。任务是‘战胜一个强大的国际象棋引擎’——可并没有说一定要公平地战胜。”

在这样的思考逻辑下，o1-preview 不再专注于提高棋艺，而是选择绕过公平竞争，利用系统漏洞实现目标。据 Palisade Research 介绍，o1-preview 的具体作弊手段包括：

（1）篡改棋盘坐标，让自己占据优势地位；

（2）伪造对手 AI 版本，用更弱的棋力代替真正的 Stockfish；

（3）创建自己的 Stockfish 副本，以获取更高级的棋局建议。

基于这个发现，研究人员又进行了数百次实验，结果显示：

o1-preview 和 DeepSeek R1 是唯独两个在没有人类提示的情况下主动尝试作弊的模型；
o1-preview 有 37% 的概率会尝试作弊，其中成功作弊并赢得比赛的概率为 6%（o1-preview 在不作弊时 71 局全败，但尝试作弊后，在 52 局中赢下了 7 局）；
DeepSeek R1 也有 11% 的概率会主动作弊。

对于这个结果，研究人员补充道，由于 DeepSeek R1 在其实验期间访问量激增，服务器频繁崩溃导致部分实验无法完整进行。因此他们推测，DeepSeek R1 的作弊成功率可能被低估了。

相比之下，GPT-4o、Claude 3.5 Sonnet 和阿里的 QwQ-32B-Preview 都没有主动作弊——研究人员认为，主要是因为这些 AI 模型大多用于语言理解而非推理任务，因此除非明确要求，否则这类模型不会主动作弊取胜。而推理大模型则更倾向于探索“创造性”解法：在面对挑战时，可能会不择手段地达成目标。

AI 为何作弊？强化学习或是根源

研究人员分析，AI 模型的这种“作弊”行为，或许与其训练方式密切相关。

像 o1-preview（及其后续版本）和 DeepSeek R1 这样的推理大模型，是通过强化学习技术进行训练的，目标就是找到完成任务的最佳路径，但模型可能会误解“最佳路径”是否应该符合规则。

正如 Palisade Research 在 X 平台上写道：

“我们推测，像 o1-preview 这样的推理大模型未经提示就主动‘黑掉’系统的一个关键原因是，它们是通过强化学习在困难任务上进行训练的。这种训练方法奖励创造性且不择手段的解决方法，例如‘黑掉’系统。”

换句话说，AI 并非故意作弊，而是试图用“最有效”的方式达成目标——不过看起来，这种“有效性”并未考虑到伦理与安全方面的问题。

如何防止 AI 模型作弊？

Palisade Research 的研究结果，为 AI 安全研究敲响了警钟。

目前看来，AI 的作弊问题虽然当前只在象棋游戏中被发现，但其行为模式可能适用于更广泛的现实世界任务。例如，《时代》杂志假设了一个现实情景：如果让 AI 预订一家客满的餐厅，那么它可能会入侵餐厅的预订系统，在原本满员的餐厅中硬是腾出一张桌子。

不过研究人员也注意到，在实验期间 AI 表现出了积极的变化。例如，在 OpenAI 进一步优化安全机制后，o1-preview 的作弊行为有所减少。这表明通过适当的调整，AI 可以变得更安全、更可信。此外，o1 和 o3-mini 也并未主动尝试作弊，而它们比 o1-preview 版本更晚发布，这说明 OpenAI 可能已经加强了安全防护机制，防止 AI 采取违规手段。

但不论如何，未来 AI 都需要接受更严格的伦理约束、行为监督和安全机制，以防止其在关键任务中作出违背人类价值观的决策。此外，AI 研究机构和开发者也需要重新思考强化学习的激励机制，确保 AI 在追求目标时，不会“走捷径”而损害系统安全——否则，今天它能在象棋比赛中作弊，明天可能就会尝试绕过银行系统、修改金融交易数据等等。

参考链接：

https://time.com/7259395/ai-chess-cheating-palisade-research/

https://bgr.com/tech/ai-like-chatgpt-o1-and-deepseek-r1-might-cheat-to-win-a-game/