谷歌又无敌了！新版Gemini 2.5霸榜！一个月全面击败o3，编程反超Claude 4-CSDN博客

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

点击进入—>【顶会/顶刊】投稿交流群

添加微信号：CVer2233，小助手会拉你进群！

扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

转载自：新智元｜编辑：桃子犀牛

【导读】谷歌深夜携全新Gemini 2.5 Pro强势归来，仅用一个月碾压旧版Gemini 2.5。数学、编程、推理全面封神，稳坐所有榜单第一。

凌晨，谷歌带着全新的Gemini 2.5 Pro炸场了！

仅一个月的时间，Gemini 2.5 Pro（06-05）直接干趴了I/O大会放出的Gemini 2.5 Pro（05-06）。

果然，能打败谷歌的，只有谷歌自己。

这次，Gemini 2.5 Pro（06-05）依旧是所有榜一。

在数学、编程、推理基准测试中，新版模型全部刷新SOTA，完全碾压o3、Claude 4、DeepSeek-R1。

相较于上一代，Gemini 2.5 Pro整体Elo提升了24分，尤其是在Web Arena上Elo提升了足足35分。

值得一提的是，更新后版本token依旧维持原价，性价比极高，输出价格仅为o3的四分之一，Claude 4就更别提了。

而且，Gemini 2.5 Pro（06-05）还引入了「思考预算」，最高达32k，还改进了函数调用等功能。

Gemini 2.5数学编码再进化，所有榜一

新版Gemini 2.5 Pro（06-05）和旧版Gemini 2.5 Pro（05-06），名字后面版本的时间，值得玩味。

很明显，谷歌这次特意选择在这个时间点放出新模型。

根据官博介绍，此次是Gemini 2.5 Pro的升级预览版，这是谷歌迄今最智能的模型。

升级基于5月I/O大会展示的基础上，这个模型将在几周后成为普遍可用的稳定版本，适合企业级应用。

最新的2.5 Pro在LMArena排行榜上Elo分数跃升24分，达到了1470，稳居榜首。

更夸张的是，它在所有领域里都排名第一。

在WebDevArena上实现了35分的Elo评分飞跃，达到1443 分。

它在编程方面表现卓越，在Aider Polyglot等高难度编程基准测试中名列前茅。

同时，它在GPQA和「人类最后考试」（HLE）等极具挑战性的基准测试中也展现了顶尖性能，这些测试评估模型的数学、科学、知识和推理能力。

谷歌还针对之前2.5 Pro版本的反馈进行了改进，提升了其风格和结构——现在它能提供更有创意、格式更优的回答。

开发者可以通过Google AI Studio和Vertex AI中的Gemini API开始使用更新的2.5 Pro进行开发，此次还新增了「思考预算」功能，能让开发者更好地控制成本和延迟。

它也在Gemini app中正式上线。

网友实测

Gemini 2.5 Pro（06-05）在真实任务中表现如何？

劈柴的一张图，早已暗示了，Gemini就是兽中之王。

网友们早已摩拳擦掌，开始了一波实测。

编码能力碾压o3、Claude 4并不只是说说而已，现在，Gemini 2.5 Pro直接通过了六边形物理模拟测试。

更惊艳的是，它还能通过Three.js创建出3D DNA模型，效果非常逼真。

数据科学家Diego测试Gemini 2.5 Pro 06-05编写一段Python代码，可视化单行道中交通灯的工作原理，要求车辆以随机速率进入。

代码运行后的效果。

可以看出整体上动画还是比较精美的，没有什么太大的问题。

作为对比，下面是GPT 4.5生成代码的效果。

不仅画面粗糙，车子也不符合物理规律。

Diego之前还测试了Claude Sonnet 3.7和Grok 3，下面是这两个模型的表现。

大家可以评判一下，到底哪个模型更强。

Claude Sonnet 3.7

Grok 3

参考资料：

https://x.com/sundarpichai/status/1930656033237823862

https://x.com/GoogleDeepMind/status/1930656243346976925

https://blog.google/products/gemini/gemini-2-5-pro-latest-preview/

https://x.com/lmarena_ai/status/1930658518560133435

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载本课程的所有566页课件PPT！赶紧学起来！

CVPR 2025 论文和代码下载

在CVer公众号后台回复：CVPR2025，即可下载CVPR 2025论文和代码开源的论文合集

ECCV 2024 论文和代码下载

在CVer公众号后台回复：ECCV2024，即可下载ECCV 2024论文和代码开源的论文合集

CV垂直方向和论文投稿交流群成立

扫描下方二维码，或者添加微信号：CVer2233，即可添加CVer小助手微信，便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注：研究方向+地点+学校/公司+昵称（如Mamba、多模态学习或者论文投稿+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信号: CVer2233，进交流群
CVer计算机视觉（知识星球）人数破万！如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料，一定要扫描下方二维码，加入CVer知识星球！最强助力你的科研和工作！

▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号
整理不易，请点赞和在看