Gemini 2.5 Pro强势更新并霸榜，Claude 3.7首次遭遇全方位碾压！

最新推荐文章于 2025-05-15 10:58:52 发布

强化学习曾小健

最新推荐文章于 2025-05-15 10:58:52 发布

阅读量993

点赞数 39

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_37574187/article/details/147796313

版权

Gemini 2.5 Pro强势更新并霸榜，Claude 3.7首次遭遇全方位碾压！

硅基觉醒派 2025年05月08日 15:14 广东

Gemini 2.5 Pro 更新来了，这次的Claude 3.7被打得毫无还手之力！

今天最引人注目的新闻莫过于Google DeepMind推出的最新模型Gemini 2.5 Pro在LMArena各大排行榜全面登顶了！

而且，这不仅仅是简单的一两个领域的领先，而是首次实现了文本、视觉、Web开发全方位霸榜，Claude 3.7甚至首次在WebDev Arena上失守。

Gemini 2.5 Pro霸榜之路，势不可挡！

根据LMArena（@lmarena_ai）的消息，Gemini 2.5 Pro横扫多个AI竞技场：

文本领域（代码生成、风格控制、创意写作等）稳居第一；
视觉能力碾压其他选手，领先幅度高达70分；
Web开发能力首次超越Claude 3.7，跃居榜首！

这也是史上第一次有单一模型在文本、视觉和Web开发领域实现如此全面的统治。

从LMArena公布的数据来看，Gemini 2.5 Pro的表现不仅赢得了榜单，更赢得了社区用户的高度认可。

Google DeepMind的新大招：编码能力再升级

Google DeepMind官方发推表示，他们推出的Gemini 2.5 Pro（I/O版）在编码能力上做了重大升级：

你可以用一个提示词构建更丰富的网页应用、游戏、模拟环境等等。

他们还展示了通过@GeminiApp如何从自然界的图片中快速生成对应的代码，展示了模型令人惊艳的创造力：

，时长00:29

不仅如此，Gemini 2.5 Pro在WebDev Arena中首次超过Claude 3.7，这个榜单主要测试模型构建吸引人的网页应用的能力。

Google官方也在推特中强调了这一突破：

此外，这个版本还显著提升了代码转换、编辑能力和开发复杂智能体的表现。开发者们现在可以在Google AI Studio、Vertex AI以及Gemini App中使用这个强大的新工具。

为什么新版Gemini 2.5 Pro如此厉害？

Gemini 2.5 Pro能有如此表现，并非偶然。

官方表示，此次更新主要针对用户在实际编码中的痛点做了针对性的优化，例如：

显著减少调用工具的失败率；
增强了多模态推理能力；
改进了视频理解能力，在VideoMME基准测试中取得了高达84.8%的表现；
全新升级的UI界面构建能力，让Web应用更美观、功能更强大。

Google DeepMind CEO Michael Truell还特别强调了其内部观察：

「新版Gemini 2.5 Pro显著降低了调用工具的失败率，极大提高了实际编码场景中的效率。」

创造力的新天地

Google发布的官方博客中表示，Gemini 2.5 Pro已通过Google AI Studio和Vertex AI全面向开发者开放，用户可以在Gemini App中体验各种丰富的功能，如Canvas功能。

博客地址：

https://blog.google/products/gemini/gemini-2-5-pro-updates/

TheQuickTechGuy(@GoogleDeepMind) 表示对Gemini 2.5 Pro能力的认可：

「将自然图片转化为代码，这种创意真是太棒了！期待它在更复杂的Web应用和模拟环境中的表现。」

而Andrew Hoskins(@NeuralNinjas)也对Gemini 2.5 Pro给出了很高的评价，同时好奇下一次能否有竞争对手@Grok出来挑战一下：

「Google DeepMind 🔥恭喜！不知道@grok能不能下一次夺回冠军？」

一些质疑和看法

但并非所有人都盲目乐观，比如Vladimir Goncharov提出了一些严肃的质疑，他表示新版本在几个测试中反而有退步，比如：

HLE测试：18.8 → 17.8 🔴
GPQA：84.0 → 83.0 🔴
SimpleQA：52.9 → 50.8 🔴

虽然有一些指标有提升，比如LiveCodeBench和Aider，但整体上表现不如预期，他认为Gemini 2.5 Pro实际表现更像是Gemini 2.4。

Gemini 2.5 Pro全面领跑

尽管存在一些质疑，但Gemini 2.5 Pro此次的表现足以证明，它在文本、视觉和Web开发领域的综合能力已经登顶，目前看来，短期内难有对手。

，时长00:23

这个最新版本甚至提前在Google I/O大会之前发布，也引发了许多用户对大会将有更多惊喜的期待。

此外Google DeepMind首席科学家Jeff Dean还指出，Gemini 2.5 Pro的更新修复了03-25初始版本中人们注意到的功能调用问题：

Gemini 2.5 Pro，AI领域的全新标杆，喊话Anthropic 将全面取代Claude 3.7成为当下最炙手可热的模型：不服来战！

不过，我唯一想要问的是：

怎么不叫2.6？

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

强化学习曾小健 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。