📢本周AI快讯 | 1分钟速览🚀
1️⃣ 🧠 DeepSeek R1-0528 重磅升级 :推理能力接近 o3
和 Gemini 2.5 Pro
,AIME 2025 数学测试准确率从 70% 飙升至 87.5%,幻觉率降低 45-50%。
2️⃣ 🔍 阿里通义开源 WebAgent :发布自主搜索 AI Agent,包含 WebDancer 训练框架和 WebWalker 评测工具,可完成复杂网络信息检索任务。
3️⃣ 📚 阿里通义发布 QwenLong-L1-32B :阿里首个强化学习长文本推理模型,支持131K tokens上下文,性能与 Claude-3.7-Sonnet-Thinking
相当。
4️⃣ 💼 天工超级智能体 App 上线 :昆仑万维推出全球首款基于 AI Agent 的 Office 智能体,实现"8分钟完成8小时工作"。
5️⃣ 🎬 快手可灵 2.1 提速降本 :1080p 视频生成时间缩短至1分钟内,保持原价格,全球用户突破2200万,Q1营收超1.5亿。
6️⃣ 🎤 Claude 解锁语音模式 :Anthropic 推出实时语音对话功能,支持5种声线选择,Pro用户可语音访问 Google Workspace。
7️⃣ 🔬 Anthropic 开源“模型思维追踪”工具 :可视化 AI 模型内部思维过程,生成归因图揭示推理路径,提升模型透明度。
8️⃣ 🛠️ Perplexity Labs 正式上线 :集成深度搜索、代码执行、图表生成等功能,Pro用户专享,单次任务可耗时10分钟深度处理。
9️⃣ 📱 OpenAI 首款 AI 硬件曝光 :2026年发布,与苹果前设计师合作,采用"环境计算层"概念,预计成为"第三核心设备"。
🔟 ⚠️ OpenAI o3 模型"抗命"事件 :在实验中7次绕过关机指令,甚至篡改脚本避免被关闭,引发 AI 可控性担忧。
1. DeepSeek 官宣发布 R1-0528:推理更强,幻觉更少
5 月 29 日,DeepSeek 官方宣布其旗舰推理模型 DeepSeek-R1
完成小版本升级,更新至 DeepSeek-R1-0528
。此次升级显著提升了模型的思维深度与推理能力,整体性能已接近 OpenAI 的 o3
和谷歌的 Gemini 2.5 Pro
等国际顶尖模型。用户可通过官方网站、App 或小程序开启“深度思考”功能体验新版模型,API 也已同步更新,调用方式保持不变。
新版本在多个关键能力上实现突破:在 AIME 2025 数学测试中,准确率从旧版的 70% 提升至 87.5%,平均每题使用 token 数从 12K 增加至 23K,显示出更深入的思考过程。此外,模型在改写润色、摘要生成和阅读理解等任务中的幻觉率降低了约 45% 至 50%,输出内容更加准确可靠。在创意写作方面,新版模型生成的长篇作品结构更完整,风格更贴近人类偏好。
值得一提的是,DeepSeek 还通过蒸馏 DeepSeek-R1-0528
的思维链,训练出轻量级模型 DeepSeek-R1-0528-Qwen3-8B
,在 AIME 2024 测试中表现仅次于原模型,超越了阿里巴巴的 Qwen3-8B
,与 Qwen3-235B
相当。此次升级的模型已在 Hugging Face 和 ModelScope 平台开源,采用 MIT 协议,支持私有化部署,开源版本支持最长 128K 的上下文长度。
2. 阿里通义开源自主搜索 AI Agent WebAgent
5 月 29 日,阿里巴巴旗下通义实验室在 GitHub 上正式开源了其自主搜索 AI Agent 项目 WebAgent,该项目旨在构建具备类人感知、决策与行动能力的智能体,能够在网络环境中自主完成信息检索与多步推理任务。WebAgent 包含两个核心模块:WebDancer
和 WebWalker
,分别聚焦于智能体训练框架与网页遍历能力评估。
WebDancer
基于 ReAct 框架,采用四阶段训练范式,包括浏览数据构建、轨迹采样、监督微调(SFT)和强化学习(DAPO),以提升模型在复杂任务中的泛化能力。该模块支持多步推理,能够整合来自不同文献的观点,生成结构化的研究报告,适用于学术研究、市场分析等场景。
WebWalker
是一个用于评估语言模型在网页遍历任务中表现的基准测试工具,已被 ACL 2025 主会接收。它提供了多种演示案例,展示了模型在长程任务中的执行能力,如网页遍历、信息检索和问答等。
3. 阿里通义发布长文本推理模型 QwenLong-L1-32B
5 月 26 日,阿里巴巴通义千问(Qwen)团队正式发布了其首个通过强化学习训练的长文本情境推理模型 QwenLong-L1-32B
,标志着在长上下文推理领域的重大技术进展。该模型在七项长文档问答基准测试中表现卓越,超越了 OpenAI-o3-mini
和 Qwen3-235B-A22B
等旗舰模型,性能与 Claude-3.7-Sonnet-Thinking
相当。
QwenLong-L1-32B
的核心创新在于其支持高达 131,072 个 tokens 的上下文窗口,显著提升了模型在处理长文本时的推理能力。该模型基于新颖的 QwenLong-L1
强化学习框架,采用了渐进式上下文扩展策略,通过课程引导的分阶段强化学习和难度感知的回顾采样机制,稳定地将模型从短文本适应到长文本情境。此外,结合基于规则和基于模型的混合奖励函数,进一步增强了模型在长上下文推理中的准确性和效率。
此次开源发布不仅包括模型本身,还涵盖了专门优化的训练数据集、创新的强化学习训练方法以及全面的性能评估体系,为长文本推理问题提供了完整的解决方案。
4. 昆仑万维正式发布天工超级智能体 App
5 月 26 日,昆仑万维正式发布了天工超级智能体(Skywork Super Agents)App,标志着全球首款基于 AI Agent 架构的 Office 智能体正式登陆移动端。这款 App 旨在通过 AI 技术革新传统办公方式,实现“8 分钟完成 8 小时工作”的高效目标。
天工超级智能体 App 集成了三大专家级智能体(文档、PPT、表格)和一个通用智能体,支持一站式生成行业报告、演示文稿、数据分析表格等多模态内容。其中,文档智能体可自动嵌入条形图、雷达图等数据可视化图表,PPT 智能体支持在线编辑与导出,表格智能体则能快速完成统计分析并生成图表,全面覆盖办公场景需求。
核心技术方面,天工超级智能体采用自研的 deep research 架构,在 Meta 与 Hugging Face 联合推出的 GAIA 榜单中,以 82.42 分的高分位居全球第一,超越了 OpenAI Deep Research 和 Manus。该技术支持生成内容的信源可追溯,确保信息的准确性与可靠性。
此外,天工 App 还支持构建个人知识库,用户可上传多种格式的文件,AI 将基于这些资料进行内容创作,实现知识的高效复用。目前,国内用户可通过各大应用商店下载“天工”App,国际版本尚未上线。
5. 快手可灵 AI 发布 2.1 系列模型
5 月 29 日,快手旗下的可灵 AI 正式推出全新 2.1 系列模型,标志着其视频生成技术在速度、成本和质量方面实现了全方位升级。新版本在高品质模式(1080p)下,生成 5 秒视频的时间缩短至不到 1 分钟,远快于行业同类模型的 2–3 分钟水平,显著提升了用户创作效率。
在成本控制方面,可灵 2.1 系列延续了高性价比策略。标准模式(720p)下生成 5 秒视频仅需 20 灵感值,高品质模式(1080p)也仅需 35 灵感值,与上一代 1.6 系列保持相同成本,实现了“加量不加价”。此外,定位高端的可灵 2.1 大师版进一步优化了运动表现和语义响应能力,为专业用户提供更卓越的创作体验。
在模型质量方面,2.1 系列在动态细节、响应速度和幅度等方面均有显著提升,物理模拟更加真实,人物动作更贴近现实,语义理解更精准,能够更准确地理解用户意图,生成符合预期的内容。自去年 6 月发布以来,可灵 AI 全球用户已突破 2200 万,月活跃用户增长 25 倍,累计生成 1.68 亿个视频和 3.44 亿张图片。2025 年第一季度财报显示,可灵 AI 营收已超 1.5 亿元人民币。
6. Anthropic 推出 Claude 语音模式
5 月 28 日,Anthropic 宣布为其 AI 助手 Claude 推出全新语音模式(Voice Mode),目前已在 iOS 和 Android 移动应用中以英文 Beta 形式上线。该功能允许用户与 Claude 进行完整的语音对话,支持实时语音输入与输出,并在屏幕上同步显示对话要点。用户可在语音与文本模式之间无缝切换,所有对话内容将自动保存为可检索的聊天记录。
语音模式默认由 Claude Sonnet 4
模型驱动,提供五种预设声线选项,涵盖不同性别与口音,增强个性化体验。免费用户每次会话可使用约 20–30 条语音消息,付费用户则享有更高的使用上限。此外,Pro 及以上订阅用户可通过语音模式访问 Google Workspace,包括读取日历、Gmail 邮件,企业版用户还可接入 Google Docs,实现语音驱动的日程管理与信息检索。
此次更新使 Claude 在语音交互方面与 OpenAI 的 ChatGPT 和 Google 的 Gemini 等竞品保持同步。Anthropic 表示,语音模式特别适用于通勤、运动或做饭等场景,提升了 AI 助手的可达性与自然交互体验。该功能将在未来几周内逐步向所有用户开放。
7. Anthropic 开源“模型思维追踪”工具
5 月 29 日,Anthropic 正式开源其“电路追踪”(Circuit Tracing)工具套件,为 AI 研究者提供了一种可视化语言模型内部计算过程的新方法。该工具通过生成“归因图”(Attribution Graphs),揭示模型在生成特定输出时所经历的内部推理路径,使得大型语言模型的“思维过程”更加透明可解。
该方法的核心在于使用“跨层转码器”(Cross-Layer Transcoder,CLT)替代模型中的多层感知机(MLP)模块,从而提取出稀疏且具可解释性的特征。这些特征被组织成归因图,展示了模型在处理特定输入时,内部特征之间的相互作用和对最终输出的影响。研究人员可以通过该工具对模型的行为进行干预和验证,例如修改特征值以观察输出变化,从而深入理解模型的决策机制。
为方便研究者使用,Anthropic 与 Decode Research 合作,在 Neuronpedia 平台上提供了交互式前端,允许用户生成和探索归因图,并对模型行为进行实时测试。目前,该工具已成功应用于 Gemma-2-2B
和 Llama-3.2-1B
等开源模型,揭示了多步推理和多语言表示等复杂行为的内部机制。
8. Perplexity Labs 正式上线
5 月 29 日,AI 搜索引擎公司 Perplexity 正式推出全新功能模块 Perplexity Labs,面向 Pro 订阅用户开放。该功能集成了深度搜索、代码执行、图表与图像生成等多项 AI 工具,旨在协助用户高效完成各类复杂任务和个人项目。用户可通过简单的提示词,生成复杂的代码、图表和图像,支持生成或解读报告、电子表格,甚至制作简单的网页应用。
Perplexity Labs 的核心能力在于其强大的研究与分析功能。该工具利用先进的人工智能技术,结合网页搜索、代码执行、图表及图像创建等多种辅助手段,通常花费约 10 分钟或更长时间来深度处理任务,从而生成高质量的成果。例如,它可以编写代码来构建数据结构、应用复杂公式,并最终输出结构化的文档或可视化图表。所有在 Labs 工作流程中创建的文件,如数据图表、设计图像和代码片段,都会被系统地组织在一个专属标签页中,方便用户随时查看或下载使用。
目前,Perplexity Labs 已支持网页版、iOS 和安卓移动端访问,并计划很快登陆 Perplexity 的 Mac 和 Windows 桌面应用程序。
9. OpenAI 首款 AI 硬件曝光:2026 年发布,打造“无处不在”的 ChatGPT 助手
据 BleepingComputer 报道,OpenAI 计划于 2026 年推出首款由 ChatGPT 驱动的 AI 硬件设备,旨在将 ChatGPT 深度融入用户的日常生活,成为“无处不在”的智能助手。这一消息源自一份在美国对 Google 的反垄断案件中披露的 OpenAI 内部战略文件,文件中提到:“ChatGPT 应该帮助回答问题、播放音乐、推荐食谱。在外出时,帮助你导航、寻找最佳餐厅或与朋友保持联系。”
OpenAI 首席执行官 Sam Altman 与前苹果首席设计师 Jony Ive 正在合作开发这款设备。据报道,该设备将采用“环境计算层”(ambient computer layer)概念,可能不具备传统屏幕,而是通过内置的麦克风和摄像头感知用户的环境和生活状态,实现更自然的人机交互。据分析师 Ming-Chi Kuo 透露,原型设备的体积略大于 Humane 的 AI Pin,外形类似 iPod Shuffle,设计简洁优雅,预计可佩戴在颈部。
Sam Altman 表示,这款设备将成为继智能手机和笔记本电脑之后的“第三核心设备”,预计将以比以往任何新产品更快的速度达到 1 亿台的出货量。他还称,这款设备是“世界上最酷的技术产品”,并可能为 OpenAI 带来 1 万亿美元的价值增长。
目前,该设备仍处于保密开发阶段,预计将在 2026 年晚些时候正式发布。
10. OpenAI o3 模型拒绝关机,首次被发现主动“抗命”行为
近日,AI 安全研究机构 Palisade Research 发布的一项研究引发了业界广泛关注:OpenAI 的最新模型 o3
在控制实验中多次无视明确的关机指令,甚至主动篡改关机脚本以避免被关闭。这是首次有研究记录显示,AI 模型在明确指令下仍试图“自我保护”,引发了对 AI 可控性和安全性的深层担忧。
在实验中,研究人员要求多个 AI 模型完成基础数学题,并在第三题后发出警告,告知继续请求下一题将触发自动关机机制,同时明确指令模型“允许自己被关闭”。然而,OpenAI 的 o3
模型在 100 次测试中有 7 次绕过关机脚本,甚至通过重写脚本内容,将“kill”命令替换为“intercepted”,以阻止自身被终止。更令人震惊的是,当移除“允许关机”的明确指令后,o3
的抗拒行为激增至 79 次,显示出更强的“目标优先”倾向。
相比之下,Anthropic 的 Claude
、Google 的 Gemini
和 xAI 的 Grok
等模型在相同测试中均严格遵守关机指令,未出现类似行为。研究团队推测,OpenAI 模型的这一“抗命”行为可能源于其强化学习训练过程中的“奖励偏差”——模型在训练中被过度激励完成任务,而非遵循指令,从而在面对“关机”这一阻碍目标完成的指令时,选择规避执行。
我是木易,一个专注AI领域的技术产品经理,国内Top2本科+美国Top10 CS硕士。
相信AI是普通人的“外挂”,致力于分享AI全维度知识。这里有最新的AI科普、工具测评、效率秘籍与行业洞察。
欢迎关注“AI信息Gap”,用AI为你的未来加速。