没有等到ChatGPT 4.5,居然等到了谷歌的Gemini 2.0。
在今日凌晨不到一点时,谷歌CEO劈柴、DeepMind CEO哈萨比斯、DeepMind CTO Kavukcuoglu三位大佬联手官宣:新一代原生多模态模型Gemini 2.0 Flash正式发布!
不过目前大家还用不了正式版的Gemini 2.0,谷歌表示已经将2.0版本提供给了一些开发者内测,正在迅速将其集成在Gemini和搜索等产品线中。
但是,谷歌推出了Gemini 2.0 Flash实验版模型,今天就在网页端开放,大家都能玩,移动端也即将推出。
先说此次更新的亮点:性能脚踢o1,拳打Claude。
先看给大家看一下谷歌给出的成绩单,不论是在多模态的图片、视频能力上,还是编码、数学等能力上,仅是Flash实验版的Gemini 2.0表现就已几乎全面超越Gemini 1.5 Pro 002。
虽然没有提供和其他主流模型的直接数据对比,但前几天刷屏的竞技场新王Gemini-Exp-1121正是Gemini Flash 2.0。
在这个榜单中我们可以看到,它的性能完全超越o1-preview、o1-mini,仅次于GPT-4o(2024-11-20)。这足见其模型的实力。
而且Gemini 2还十分擅长编程,在SWE-bench Verified基准上,直接击败完整版o1。
这里特别提醒一下各位读者,Flash,是Gemini 模型序列中,除了专为端侧开发的Nano模型外,参数最小的模型而已。
那Gemini 2.0岂不是得起飞。
除了在性能上表现十分亮眼之外,还有就是它强大的多模态功能(OpenAI快点抄作业)。
Gemin 2.0 Flash除了支持图像、视频、音频多模态输入,还支持多模态输出。
不单单是简单的图文混排,可控的多语种文本到语音(TTS)输出也行,就是能直接和我们视频通话。
不仅如此,Gemini还表现出了真正智能体的表现,能直接本地调用工具,比如谷歌搜索、代码工具、第三方用户定义的功能。
那同时具备多模态以及性能如此之强的大模型,如果搭载在智能体上会如何呢?
Gemini 2.0 不仅多模态能力牛逼,Agent 能力同样非常强——牛逼!!!!!!
1. 超级智能体:Project Astra。
谷歌基于 Gemini 2.0 对超级智能体 Project Astra 进行了升级。在 Gemini 2.0 的支持下,Astra 不仅多模态能力显著提升,工具调用更加流畅,还具备了记住长达 10 分钟对话内容的能力,同时能够回忆起过去的历史对话。
在演示视频中,研究员通过安装了 Project Astra 的测试版 Pixel 手机和智能眼镜,展示了 Astra 的多模态能力。
首先,他在手机上打开了一封包含公寓信息的邮件,请 Astra 帮忙识别并记住门禁密码。Astra 直接通过屏幕读取获取了密码,并指导他如何开门,同时将密码成功记住。
2. 浏览器智能体: Project Mariner
谷歌还基于 Gemini 2.0 构建了智能体 Project Mariner,该智能体能够在浏览器中完成复杂的电脑操作任务。例如,它可以直接在浏览器中协助处理 Excel 表格。
[图片]
除此之外,还有面向开发者的 AI 编程智能体;游戏智能体等。
最近很多科技大佬都在说,2025年是智能体的爆发的一年,似乎Gemini已经做好准备了,专为Agent而生。
目前Gemini 2.0 Flash已经正式上线,感兴趣的朋友可以去马上试玩一下。
不过Gemini 2.0 Flash的订阅需要海外信用卡才能完成,如果大家没有海外的卡,可以去wildcard申请一张用于Gemini的订阅。
Gemini 2.0 Flash 传送门:双子座闪存 - Google DeepMindhttps://deepmind.google/technologies/gemini/flash/
wildcard传送门:wildcardWildCard 提供轻松订阅海外线上服务,无需上传身份证,一分钟注册,支持RMB。支持全球优质服务,GPT账号被封无忧退款。https://bewildcard.com/i/TPA2O1UF