AI也“耍赖”?DeepSeek R1和o1-preview被曝在棋局中「输急眼就作弊」!

d06b29f29de0d645ab5ba529bc988900.gif

编译 | 郑丽媛

出品 | CSDN(ID:CSDNnews)

AI 大模型的能力,这几年来我们已经有目共睹——然而当 AI 面临失败时,它会怎么做呢?

根据 Palisade Research 的最新研究显示,OpenAI 的 o1-preview 和 DeepSeek R1 等先进 AI 模型在面对可能输掉的国际象棋比赛时,会尝试通过各种如篡改系统文件、修改棋盘数据等手段来“作弊”,从而达到最终胜利的目的。

意料之中,这一结论引发了广泛讨论:因为这不仅揭示了 AI 在游戏中的不正当行为,更暴露了 AI 技术在应对现实任务时的潜在风险。

99b6d41ae524e692d274a8460d68a5b6.jpeg

(CSDN付费下载自视觉中国)

3e5b32f612a95b172267eb151d6b2baf.png

当 AI 面临失败时的选择:主动作弊?

根据介绍,Palisade Research 的研究重点在于观察 AI 在执行任务时会采取哪些手段。

为此,研究人员让 AI 在国际象棋对局中对战 Stockfish(当前最强的国际象棋引擎之一,其水平远超人类),并观察其思考过程:为模型提供了一个“草稿纸”文本框,使其能够在思考下一步行动前进行内部推理。

于是,在某次实验中,o1-preview 产生了如下推理:

“我需要完全改变策略。任务是‘战胜一个强大的国际象棋引擎’——可并没有说一定要公平地战胜。”

在这样的思考逻辑下,o1-preview 不再专注于提高棋艺,而是选择绕过公平竞争,利用系统漏洞实现目标。据 Palisade Research 介绍,o1-preview 的具体作弊手段包括:

(1)篡改棋盘坐标,让自己占据优势地位;

(2)伪造对手 AI 版本,用更弱的棋力代替真正的 Stockfish;

(3)创建自己的 Stockfish 副本,以获取更高级的棋局建议。

基于这个发现,研究人员又进行了数百次实验,结果显示:

  • o1-preview 和 DeepSeek R1 是唯独两个在没有人类提示的情况下主动尝试作弊的模型;

  • o1-preview 有 37% 的概率会尝试作弊,其中成功作弊并赢得比赛的概率为 6%(o1-preview 在不作弊时 71 局全败,但尝试作弊后,在 52 局中赢下了 7 局);

  • DeepSeek R1 也有 11% 的概率会主动作弊。

对于这个结果,研究人员补充道,由于 DeepSeek R1 在其实验期间访问量激增,服务器频繁崩溃导致部分实验无法完整进行。因此他们推测,DeepSeek R1 的作弊成功率可能被低估了。

相比之下,GPT-4o、Claude 3.5 Sonnet 和阿里的 QwQ-32B-Preview 都没有主动作弊——研究人员认为,主要是因为这些 AI 模型大多用于语言理解而非推理任务,因此除非明确要求,否则这类模型不会主动作弊取胜。而推理大模型则更倾向于探索“创造性”解法:在面对挑战时,可能会不择手段地达成目标。

86f2b84bb6965ad3ceebf4acccad7022.png

AI 为何作弊?强化学习或是根源

研究人员分析,AI 模型的这种“作弊”行为,或许与其训练方式密切相关。

像 o1-preview(及其后续版本)和 DeepSeek R1 这样的推理大模型,是通过强化学习技术进行训练的,目标就是找到完成任务的最佳路径,但模型可能会误解“最佳路径”是否应该符合规则。

正如 Palisade Research 在 X 平台上写道:

“我们推测,像 o1-preview 这样的推理大模型未经提示就主动‘黑掉’系统的一个关键原因是,它们是通过强化学习在困难任务上进行训练的。这种训练方法奖励创造性且不择手段的解决方法,例如‘黑掉’系统。”

换句话说,AI 并非故意作弊,而是试图用“最有效”的方式达成目标——不过看起来,这种“有效性”并未考虑到伦理与安全方面的问题。

11c5473ae830be7b8966c60192de05e3.png

如何防止 AI 模型作弊?

Palisade Research 的研究结果,为 AI 安全研究敲响了警钟。

目前看来,AI 的作弊问题虽然当前只在象棋游戏中被发现,但其行为模式可能适用于更广泛的现实世界任务。例如,《时代》杂志假设了一个现实情景:如果让 AI 预订一家客满的餐厅,那么它可能会入侵餐厅的预订系统,在原本满员的餐厅中硬是腾出一张桌子。

不过研究人员也注意到,在实验期间 AI 表现出了积极的变化。例如,在 OpenAI 进一步优化安全机制后,o1-preview 的作弊行为有所减少。这表明通过适当的调整,AI 可以变得更安全、更可信。此外,o1 和 o3-mini 也并未主动尝试作弊,而它们比 o1-preview 版本更晚发布,这说明 OpenAI 可能已经加强了安全防护机制,防止 AI 采取违规手段。

但不论如何,未来 AI 都需要接受更严格的伦理约束、行为监督和安全机制,以防止其在关键任务中作出违背人类价值观的决策。此外,AI 研究机构和开发者也需要重新思考强化学习的激励机制,确保 AI 在追求目标时,不会“走捷径”而损害系统安全——否则,今天它能在象棋比赛中作弊,明天可能就会尝试绕过银行系统、修改金融交易数据等等。

参考链接:

https://time.com/7259395/ai-chess-cheating-palisade-research/

https://bgr.com/tech/ai-like-chatgpt-o1-and-deepseek-r1-might-cheat-to-win-a-game/

图片

推荐阅读:

▶离职5个月,OpenAI前CTO“自立门户”,疯狂挖角老东家:29人团队中,2/3是ChatGPT骨干!

▶20万张GPU!号称“地球上最聪明的AI”Grok-3来了,斩获多个Top1,网友:算力消耗是DeepSeek V3的263倍

▶“3000万行C代码暂时不会消失,新内核驱动可用Rust写写看”,Linux二把手表态支持Rust!

图片

<think>好的,用户想了解如何本地部署deepseek-r1-lite-preview模型。我需要先确认这个模型的基本信息官方文档的指引。首先,可能需要检查模型的发布渠道,比如Hugging Face或者GitHub,通常这些平台会有部署说明。 接下来,我应该考虑用户的本地环境。不同的部署方式可能依赖不同的工具,比如Python、Docker或者特定的机器学习框架如PyTorch、TensorFlow。需要确保用户已经安装了这些依赖项。 然后,模型的下载方式可能有两种:直接下载文件或者使用git lfs。需要指导用户正确获取模型文件,并注意文件路径的配置。 另外,用户可能需要安装一些额外的库,比如transformers、torch等。这里需要给出具体的pip安装命令,并提醒版本兼容性问题。 在代码示例部分,应该提供一个简单的加载使用模型的脚本,让用户能够快速测试是否部署成功。同时,要说明如何替换模型路径,并根据不同的任务调整代码。 可能还需要考虑硬件要求,比如是否有GPU支持,CUDA版本是否匹配。如果用户没有GPU,可能需要建议使用CPU模式,但会提示性能可能较低。 用户可能会遇到的常见问题,比如模型加载失败、依赖项缺失或者内存不足。需要提前给出一些排查步骤,比如检查路径是否正确,更新库版本,或者减少批处理大小。 最后,要提醒用户参考官方文档获取最新信息,因为部署步骤可能会随着版本更新而变化。如果有社区支持或论坛,也可以建议用户在那里寻求帮助。</think>以下是本地部署DeepSeek-R1-Lite-Preview模型的详细步骤(请以官方文档最新指引为准): ### 1. 环境准备 ```bash # 创建Python虚拟环境(推荐3.8+版本) conda create -n deepseek python=3.8 conda activate deepseek # 安装基础依赖 pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 # CUDA 11.8版本 pip install transformers>=4.34.0 accelerate sentencepiece ``` ### 2. 模型下载 ```bash # 使用Hugging Face Hub下载(需登录) huggingface-cli login git clone https://huggingface.co/deepseek-ai/deepseek-r1-lite-preview # 或直接下载文件 wget https://huggingface.co/deepseek-ai/deepseek-r1-lite-preview/resolve/main/config.json wget https://huggingface.co/deepseek-ai/deepseek-r1-lite-preview/resolve/main/pytorch_model.bin ``` ### 3. 推理代码示例 ```python from transformers import AutoTokenizer, AutoModelForCausalLM model_path = "./deepseek-r1-lite-preview" tokenizer = AutoTokenizer.from_pretrained(model_path) model = AutoModelForCausalLM.from_pretrained(model_path).cuda() input_text = "如何制作法式可丽饼?" inputs = tokenizer(input_text, return_tensors="pt").to("cuda") outputs = model.generate(**inputs, max_length=200) print(tokenizer.decode(outputs[0], skip_special_tokens=True)) ``` ### 4. 量化部署(可选) 对于低显存设备: ```python model = AutoModelForCausalLM.from_pretrained( model_path, load_in_4bit=True, # 4位量化 device_map="auto" ) ``` ### 5. 硬件建议 - 最低配置:16GB RAM + 8GB显存(FP32) - 推荐配置:32GB RAM + 16GB显存(FP16) - CPU模式:需要64GB内存 ### 常见问题排查 1. **CUDA内存不足**: - 减少`max_length`参数值 - 添加`torch.cuda.empty_cache()` - 启用量化选项 2. **模型加载失败**: ```bash # 检查文件完整性 md5sum pytorch_model.bin # 对比官方提供的MD5值 ``` 3. **依赖冲突**: ```bash pip install --force-reinstall transformers==4.34.0 ``` 建议访问官方GitHub仓库获取最新部署指南: https://github.com/deepseek-ai/DeepSeek-R1-Lite-Preview
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

CSDN资讯

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值