谷歌狙击OpenAI,突发Gemini 2.0新一代大模型!主打多模态和Agent

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【Mamba/多模态/扩散】交流群

添加微信号:CVer2233,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

8837e9f9bd33948018a797ed23c365bb.png

鱼羊 西风 发自 凹非寺
转载自:量子位(QbitAI)

继量子芯片之后,谷歌又来抢“OpenAI双12直播”的流量了!

就在刚刚,谷歌新一代大模型Gemini 2.0突然登场,再次由谷歌CEO皮猜亲自官宣。

612b79e1841c0c5bf1919ffd56f9fbeb.png

新一代模型专为AI Agent而打造,谷歌表示目前已经将2.0版本提供给了一些开发者内测,正在迅速将其集成在Gemini和搜索等产品线中。

好消息是,Gemini 2.0 Flash实验版模型今天就在网页端开放,大家都能玩,移动端即将推出。

除此之外,谷歌还推出了一项名为深度研究(Deep Research)的新功能,基于高级推理和长上下文能力,它能直接帮你干研究助理的活儿——给个主题,自己出报告的那种。

目前这个新功能在Gemini Advanced版本中可用。

谷歌这一波出手,再结合Sora的不尽如人意,新一天的直播还没开始,已经有人开始唱衰OpenAI了:

OpenAI的护城河是什么?

3ed518c991ea856c20e243daa5795702.png

c64a48433c5c4e29c3710de8411eb569.gif

“面向智能体时代的新AI模型”

在谷歌CEO皮猜、Google DeepMind CEO哈萨比斯,以及Google DeepMind CTO科雷(Koray Kavukcuoglu)三人共同撰写的博客文章中,官方给Gemini 2.0的定位是:

面向智能体时代的AI模型。

在多模态方面的新进展,以及原生工具的使用,使我们能够构建新的AI智能体,以更接近实现通用助手的愿景。

具体如何体现?在Gemini 2.0 Flash实验版第一时间上线的同时,谷歌还在Gemini Advanced中推出了一项名为深度研究(Deep Research)的智能体新功能。

你可以把它当成以研究助理,围绕一个复杂主题生成研究报告。有点像是个科研版AI搜索

outside_default.png

另外一个Gemini 2.0的重点关键词是:多模态

2.0 Flash实验版除了支持图像、视频、音频多模态输入,还支持多模态输出。

不单单是简单的图文混排,可控的多语种文本到语音(TTS)输出也行,还能直接本地调用工具,比如谷歌搜索、代码工具、第三方用户定义的功能。

有ChatGPT插件那味儿了。

不过,作为实验模型,其文本到语音和原生图像生成功能目前仅提供给早期访问合作伙伴。谷歌透露2.0 Flash将在1月份正式推出,会提供更多不同大小的模型。

而根据谷歌发布的基准测试结果,不论是在多模态的图片、视频能力上,还是编码、数学等能力上,仅是Flash实验版的Gemini 2.0表现就已几乎全面超越Gemini 1.5 Pro 002。

而且它的速度是1.5 Pro的两倍。

13782ea806166d5d7fb62a388f85c8c4.png

谷歌表示,明年年初,会将Gemini 2.0扩展到更多旗下产品中,比如Project Astra。

就是I/O大会上谷歌推出来跟GPT-4o的语音功能打擂台的那个。

此次,基于Gemini 2.0,Project Astra更新了以下功能:

  • 更好的对话:现在能够以多种语言和混合语言进行对话,更好地理解口音和不常见的单词。

  • 使用新工具:Project Astra会用谷歌搜索、Lens和地图了。

  • 更强的记忆力:Project Astra现在拥有10分钟的会话记忆,并且可以记住更多历史对话,也就说,凭借这些“记忆”,它能更懂你了。

  • 改进延迟:Project Astra可以按正常人类对话的节奏来理解对话。

谷歌还提到,正在将Project Astra移植到眼镜等更多移动终端中。

另外,谷歌透露,他们正在和Supercell等游戏开发商合作,测试基于Gemini 2.0打造的游戏智能体们的实力。

这些智能体可以根据屏幕上的动作对游戏进行推理,并与玩家实时对话提供行动建议。

玩《突击小队》、《部落冲突》、《农场日记》,场面belike:

除了网页端可用,Gemini 2.0 Flash实验模型还通过Google AI Studio和Vertex AI的Gemini API向开发者提供。

从OpenAI跳槽到谷歌的Logan Kilpatrick表示,他们在Google AI Studio中创建了一个全新体验,展示了Gemini 2.0视频理解、原生工具使用、空间理解的入门应用。

b502b89bd34fc4cda2a8d1d20ac5adef.png

那么,你觉得这够Agent吗?

c7b487d19891f34a891e6a072799789c.png

参考链接:
[1]https://x.com/GoogleDeepMind/status/1866869343570608557
[2]https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/#ai-game-agents

 
 

何恺明在MIT授课的课件PPT下载

 
 

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

ECCV 2024 论文和代码下载

在CVer公众号后台回复:ECCV2024,即可下载ECCV 2024论文和代码开源的论文合集

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集

Mamba、多模态和扩散模型交流群成立

 
 
扫描下方二维码,或者添加微信号:CVer2233,即可添加CVer小助手微信,便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

 
 
▲扫码或加微信号: CVer2233,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集上万人!

▲扫码加入星球学习
 
 
▲点击上方卡片,关注CVer公众号
整理不易,请赞和在看
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值