【AGI-Eval 行业动态 NO.8】Gemini 2.5 Pro “屠榜”？一手实测“看看实力”

最新推荐文章于 2025-10-13 14:46:53 发布

原创

最新推荐文章于 2025-10-13 14:46:53 发布 · 1.3k 阅读

·

10

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

北京时间 26 号晚，除了 GPT-4o 在图像生成方面放出大招，Google 也不甘示弱的发布了新模型 Gemini 2.5 pro，并且在各大榜单实现了“屠榜”，在多模态交互，数学科学，编程方面实现“遥遥领先”，跟 Openai 打了一次漂亮的“双响炮”。

目录：

1. Gemini 2.5 pro 实现屠榜？

2. Google 官方实测案例

3. 团队一手实测

3.1 多模态能力测试

3.1.1 微表情测试

3.1.2 三门问题测试

3.2 编程，科学与数学能力测试

3.2.1 编程能力测试

3.2.2 科学能力测试

3.2.3 数学能力测试

4. 总结和期待

01. Gemini 2.5 pro 实现屠榜？

Google 官方在北京时间 26 日晚在 X 上发布了 Gemini 2.5 Pro 发布的公告：

Google 官方发布的信息中，宣称这次 Gemini 2.5 pro 在各类榜单上实现了“屠榜”，Gemini 2.5 Pro 在对话能力榜单 Arena leaderboard 之中实现历史以来的得分最大飞跃，以超过 Grox-3 模型 40 分的成绩目前位居第一名。

详细的对比数据可见上表

Gemini 2.5 Pro Experimental 在许多类别中都取得了排名第一的成绩，特别是在数学、科学、创意写作、指令遵循、较长查询表现突出。

详细的对比数据可见上表

Gemini 2.5 Pro 在 Web 开发领域也表现不俗。在 WebDev Arena 上取得了第二的好成绩。它是第一款与 Claude 3.5 Sonne 相似，比上一代 Gemini 有了巨大的飞跃。

Gemini在WebDev Arena中的排名情况

那么，这次 Gemini 2.5 pro 在实践中表现如何呢？

关注我们，及时获取更多行业内容和资讯！

AGI-Eval大模型评测

AGI-Eval是上海交通大学、同济大学、华东师范大学、DataWhale等高校和机构合作发布的大模型评测社区，旨在打造公正、可信、科学、全面的评测生态以“评测助力，让AI成为人类更好的伙伴"为使命。

14篇原创内容

公众号

02. 官方实测

编程与视觉理解大师？

对此，Gemini 官方给出了几个实际的案例：

首先，看看 Gemini 对任务的理解

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。