(以下借助 DeepSeek-R1 & ChatGPT 辅助整理)
⚡ 一、大模型技术进展
DeepSeek-R1 小版本更新
该版本在三大核心能力实现突破:
- 推理规划能力:数学测试准确率从70%升至88%,思考深度翻倍;
- 工具调用能力:新增函数调用与JSON输出支持,接近OpenAI o1水平;
- 编程与页面生成能力:性能已对标Claude、GPT-4级别。
- 工具调用能力:新增函数调用与JSON输出支持,接近OpenAI o1水平;
观点:持续的小幅迭代与开源生态活跃度同样重要,DeepSeek 社区化运营模式证明了“快更新、广测试”对模型成熟度提升的裨益。此次升级表明中国开源模型已在关键能力上逼近美国闭源巨头,中美模型性能差距已从2023年20%缩小至接近持平(斯坦福报告称仅差0.3%),开源生态正成为技术平权的重要力量。
谷歌 Gemini “计划操作”(Scheduled Actions)上线
6月7日,谷歌面向付费用户推出 “计划操作”(Planned Actions)功能,支持用户通过语音或文字指令,让Gemini在特定时间自动执行重复性任务,如推送日历摘要、追踪赛事、生成灵感等。此前1月OpenAI已为ChatGPT推出类似功能。
观点:与 OpenAI ChatGPT 任务(Tasks)功能同质化竞争加剧,智能体即服务(Agent-as-a-Service)正成为AI助手新战场,企业级办公自动化增量需求巨大。
谷歌 DeepMind 推出智能邮件助手
6月3日,Demis Hassabis 宣布正在开发一套能“模仿用户书信风格”进行回复与管理的邮件 AI 助手。可自动分类、答复常见邮件,并辅助决策。
观点:邮件是利用场景中最贴近生产力提升入口之一,Google 通过 Agent 架构落地应用,验证“智能体即服务”(AaaS)方向的落地路径。与前述 Gemini 的“Planned Actions”一脉相承,AI 正持续渗透日常办公自动化。
Apple ML 团队发布 AI 推理可靠性研究
6月9日,Apple 在 WWDC 前夕发布论文,指出主流 LLM(如 OpenAI o1、Anthropic Claude)在定制逻辑谜题(塔汉诺伊、过河等)中的中间思维链存在一致性崩溃,虽能偶获正确解答,但推理轨迹不稳。
观点:该研究强调“可解释性”与“过程可靠性”在高风险场景(医疗、金融、自动驾驶)中的核心地位,未来可通过混合监督或全程可验证推理线路来提升系统鲁棒性。
Apple 发布 AI 推理能力研究:模型并非真正“思考”
6月9日,Apple ML 团队发布研究,指出主流大语言模型(如 OpenAI 的 o1、Anthropic 的 Claude)在特定推理任务(如河流过渡、汉诺塔)中的步骤逻辑仍不一致,尽管最终答案可能正确。这暴露出模型“思维链”仍具脆弱性。
观点:该研究提醒业界,除表面正确输出,更应聚焦推理轨迹的可靠性。对未来 AI 可解释性、安全性和系统鲁棒性具有指导意义,尤其适用于高风险场景(医疗、自动驾驶等)。
💻 二、AI算力与行业生态
Nvidia Q1 财报:数据中心收入 391 亿美元,同比+73%
截至4月27日财季,Nvidia 报告总营收 441 亿美元,同比增长69%,其中数据中心业务 391 亿美元,同比增长73%。
观点:这一业绩再度印证全球AI算力需求爆发式增长;同时,Nvidia 对华定制 B30 芯片与 H20 退而求其次策略,表明其在合规与性能之间寻求平衡。
Broadcom 发布 Tomahawk 6 网络芯片:为 AI 数据中心配套
6月3日消息,Broadcom 启动 Tomahawk 6 芯片出货,性能约为前代双倍,支持大型 GPU 集群互链互通,预设百万 GPU 规模数据中心。
观点:网络互联是大规模 AI 训练的瓶颈所在,Tomahawk 6 的面世,是算力堆叠中重要一环,标志行业已从单芯片性能竞争向端到端基础设施协调逐级演进。
🏥 三、医疗AI突破性研究
AlphaMed:极简规则强化学习实现医疗推理新范式
帝国理工学院团队在arXiv发布研究,提出仅通过最终答案对错的二元反馈(无需思维链数据),即可训练大模型完成复杂医疗推理。该方法在MedQA等六大医疗基准测试中超越GPT-4蒸馏模型,甚至部分任务表现优于Claude-3.5。
观点:该技术大幅降低高质量医疗AI训练成本,破解传统依赖专家示范的瓶颈,为发展中国家医疗AI普惠提供新路径。
💎 结语
本周AI进展凸显两大趋势:
- 技术民主化加速:以DeepSeek为代表的开源模型缩小国际差距,AlphaMed以低成本实现高性能医疗推理,推动AI普惠;
- 智能体与自动化崛起:谷歌Gemini、火山引擎大会均指向任务自动化成为下一代AI核心场景。
参考文献