AI一周事件(2025年6月3日-6月9日)

(以下借助 DeepSeek-R1 & ChatGPT 辅助整理) 

⚡ 一、大模型技术进展

DeepSeek-R1 小版本更新

该版本在三大核心能力实现突破:

  •         推理规划能力:数学测试准确率从70%升至88%,思考深度翻倍;
    •         工具调用能力:新增函数调用与JSON输出支持,接近OpenAI o1水平;
      •         编程与页面生成能力:性能已对标Claude、GPT-4级别。

观点:持续的小幅迭代与开源生态活跃度同样重要,DeepSeek 社区化运营模式证明了“快更新、广测试”对模型成熟度提升的裨益。此次升级表明中国开源模型已在关键能力上逼近美国闭源巨头,中美模型性能差距已从2023年20%缩小至接近持平(斯坦福报告称仅差0.3%),开源生态正成为技术平权的重要力量。

谷歌 Gemini “计划操作”(Scheduled Actions)上线

6月7日,谷歌面向付费用户推出 “计划操作”(Planned Actions)功能,支持用户通过语音或文字指令,让Gemini在特定时间自动执行重复性任务,如推送日历摘要、追踪赛事、生成灵感等。此前1月OpenAI已为ChatGPT推出类似功能。
观点:与 OpenAI ChatGPT 任务(Tasks)功能同质化竞争加剧,智能体即服务(Agent-as-a-Service)正成为AI助手新战场,企业级办公自动化增量需求巨大。

谷歌 DeepMind 推出智能邮件助手

6月3日,Demis Hassabis 宣布正在开发一套能“模仿用户书信风格”进行回复与管理的邮件 AI 助手。可自动分类、答复常见邮件,并辅助决策。

观点:邮件是利用场景中最贴近生产力提升入口之一,Google 通过 Agent 架构落地应用,验证“智能体即服务”(AaaS)方向的落地路径。与前述 Gemini 的“Planned Actions”一脉相承,AI 正持续渗透日常办公自动化。

Apple ML 团队发布 AI 推理可靠性研究

6月9日,Apple 在 WWDC 前夕发布论文,指出主流 LLM(如 OpenAI o1、Anthropic Claude)在定制逻辑谜题(塔汉诺伊、过河等)中的中间思维链存在一致性崩溃,虽能偶获正确解答,但推理轨迹不稳。

观点:该研究强调“可解释性”与“过程可靠性”在高风险场景(医疗、金融、自动驾驶)中的核心地位,未来可通过混合监督或全程可验证推理线路来提升系统鲁棒性。

Apple 发布 AI 推理能力研究:模型并非真正“思考”

6月9日,Apple ML 团队发布研究,指出主流大语言模型(如 OpenAI 的 o1、Anthropic 的 Claude)在特定推理任务(如河流过渡、汉诺塔)中的步骤逻辑仍不一致,尽管最终答案可能正确。这暴露出模型“思维链”仍具脆弱性。

观点:该研究提醒业界,除表面正确输出,更应聚焦推理轨迹的可靠性。对未来 AI 可解释性、安全性和系统鲁棒性具有指导意义,尤其适用于高风险场景(医疗、自动驾驶等)。


💻 二、AI算力与行业生态

Nvidia Q1 财报:数据中心收入 391 亿美元,同比+73%

截至4月27日财季,Nvidia 报告总营收 441 亿美元,同比增长69%,其中数据中心业务 391 亿美元,同比增长73%。

观点:这一业绩再度印证全球AI算力需求爆发式增长;同时,Nvidia 对华定制 B30 芯片与 H20 退而求其次策略,表明其在合规与性能之间寻求平衡。

Broadcom 发布 Tomahawk 6 网络芯片:为 AI 数据中心配套

6月3日消息,Broadcom 启动 Tomahawk 6 芯片出货,性能约为前代双倍,支持大型 GPU 集群互链互通,预设百万 GPU 规模数据中心。

观点:网络互联是大规模 AI 训练的瓶颈所在,Tomahawk 6 的面世,是算力堆叠中重要一环,标志行业已从单芯片性能竞争向端到端基础设施协调逐级演进。


🏥 三、医疗AI突破性研究

AlphaMed:极简规则强化学习实现医疗推理新范式

帝国理工学院团队在arXiv发布研究,提出仅通过最终答案对错的二元反馈(无需思维链数据),即可训练大模型完成复杂医疗推理。该方法在MedQA等六大医疗基准测试中超越GPT-4蒸馏模型,甚至部分任务表现优于Claude-3.5。

观点:该技术大幅降低高质量医疗AI训练成本,破解传统依赖专家示范的瓶颈,为发展中国家医疗AI普惠提供新路径。


💎 结语

本周AI进展凸显两大趋势:

  • 技术民主化加速:以DeepSeek为代表的开源模型缩小国际差距,AlphaMed以低成本实现高性能医疗推理,推动AI普惠;
  • 智能体与自动化崛起:谷歌Gemini、火山引擎大会均指向任务自动化成为下一代AI核心场景。


参考文献

DeepSeek-R1 升级登顶全球开源模型第一

谷歌Gemini上线“计划操作”功能

英伟达、博通财报超预期

AlphaMed:极简规则实现医疗推理突破

Google DeepMind 邮件助手开发

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

俊哥V

这是个嘛?

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值