谷歌反击:Project Astra正面硬刚GPT-4o、Veo对抗Sora、新版Gemini变革搜索

点击蓝字

关注我们

关注并星标

从此不迷路

计算机视觉研究院

fbeb60b1121b5e7e34aa22aa8f6fcbb4.gif

1794dfd16e8c17ca9055c3fc22daf743.gif

公众号ID计算机视觉研究院

学习群扫码在主页获取加入方式

计算机视觉研究院专栏

Column of Computer Vision Institute

这就是谷歌对 OpenAI 的回应。

9846b5ea9b51261368b6a9cde83cab4e.gif

95082fbeea50e4681d1785978e66e195.png

c189be325992b087485da84053c2386b.gif

是的,每一分钟都在讲 AI。

eaae9b245ccef73b2022ed3268386526.png

71309932758a28caa4a7cb89c36ece1e.png

84645828f0ba83f1861cd91ea474527b.gif

c21dc0490230fd86274df64809b5ab89.png

6df1d55b01207d7bb073b1ae5a3a620e.gif

e80e90e91d3b75164844dd8a96984c94.png

ca67fe6f3cd6b11d34cdc12b82d80e1d.png

cd33cd74b5c58c5bfa31925845261672.gif

d9e44606339775f02480726c7a3a4e03.png

ea43debfadb75a4e5553bdb6906489f6.png

dcb2f756d128f27a89f5bc933dc815a7.png

c3d65175b8a07dfbdd25312031d6ddaa.png

b7e8dabd07e0239271217aa60ad27e73.png

f8c282c8d64d8acb1dd2febcb157443d.png

Gemini 1.5 Flash 具有很强的多模态推理能力,并具有突破性的长上下文窗口。

24cfd0bf5c7effb9e64a331fce61a00e.png

bd2259659b26d1414c57beda39d9d97f.png

Gemini 1.5 Flash 性能表现。来源 https://deepmind.google/technologies/gemini/#introduction

19ab9705f5bfe0275712a383f068ca4e.png

c652ca574f1cd2e54608cfcec4bcb38b.png

191a43b5fc31c49e055e7d5d422d30b9.png

f321239f8882b5e037e95a6420a823c4.png

3c69b97e1f7349135bb136363c3c4d6c.png

1379f39db5e1e83026f1e2447412a044.gif

谷歌即将推出 Ask Photos 功能。以 Google Photos 举例,该功能大约在九年前推出。如今,用户每天上传的照片和视频数量超过 60 亿张。人们喜欢使用照片来搜索他们的生活。Gemini 让这一切变得更加容易。

假设你正在停车场付款,但不记得自己的车牌号码。之前,你可以在照片中搜索关键字,然后滚动浏览多年的照片,寻找车牌。现在,你只需询问照片即可。

a5e89344ba991cc0a659ba44b42b1fc8.gif

又比如,你回忆女儿露西娅的早期生活。现在,你可以问照片:露西亚什么时候学会游泳的?你还可以跟进一些更复杂的事情:告诉我露西娅的游泳进展如何。

在这里,Gemini 超越了简单的搜索,识别了不同的背景 —— 包括游泳池、大海等不同场景,照片将所有内容汇总在一起,以便用户查看。谷歌将于今年夏天推出 Ask Photos 功能,并且还将推出更多功能。

bc3574fee4b0281e131e8554493d35fb.gif

4c986eebac01230f8bfcc123345c101f.png

新一代开源大模型 Gemma 2

今天,谷歌还发布了开源大模型 Gemma 的一系列更新 ——Gemma 2 来了。 

据介绍,Gemma 2 采用全新架构,旨在实现突破性的性能和效率,新开源的模型参数为 27B。

45ff7b369ba9071dc3c0c861ceedafa2.png

此外,Gemma 家族也在随着 PaliGemma 的扩展而扩展,PaliGemma 是谷歌受 PaLI-3 启发的第一个视觉语言模型。

通用 AI 智能体 Project Astra

一直以来,智能体都是 Google DeepMind 的重点研究方向。

昨天,我们围观了 OpenAI 的 GPT-4o,为其强大的实时语音、视频交互能力所震撼。

今天,DeepMind 的视觉与语音交互通用 AI 智能体项目 Project Astra 亮相,这是 Google DeepMind 对未来 AI 助手的一个展望。

谷歌表示,为了真正发挥作用,智能体需要像人类一样理解和响应复杂、动态的真实世界,也需要吸收并记住所看到和听到的内容,以了解上下文并采取行动。此外,智能体还需要具有主动性、可教育和个性化,以便用户可以自然地与它交谈,没有滞后或延迟。

在过去的几年里,谷歌一直致力于改进模型的感知、推理和对话方式,以使交互的速度和质量更加自然。

在今天的 Keynote 中, Google DeepMind 展示了 Project Astra 的交互能力:

据介绍,谷歌是在 Gemini 的基础上开发了智能体原型,它可以通过连续编码视频帧、将视频和语音输入组合到事件时间线中并缓存此信息以进行有效调用,从而更快地处理信息。

通过语音模型,谷歌还强化了智能体的发音,为智能体提供了更广泛的语调。这些智能体可以更好地理解他们所使用的上下文,并在对话中快速做出响应。

这里简单评论一下。机器之心感觉 Project Astra 项目发布的 Demo,在交互体验上要比 GPT-4o 实时演示的能力要差许多。无论是响应的时长、语音的情感丰富度、可打断等方面,GPT-4o 的交互体验似乎更自然。不知道读者们感觉如何?

反击 Sora:发布视频生成模型 Veo

在 AI 生成视频方面,谷歌宣布推出视频生成模型 Veo。Veo 能够生成各种风格的高质量 1080p 分辨率视频,时长可以超过一分钟。

凭借对自然语言和视觉语义的深入理解,Veo 模型在理解视频内容、渲染高清图像、模拟物理原理等方面都有所突破。Veo 生成的视频能够准确、细致地表达用户的创作意图。

例如,输入文本 prompt:

Many spotted jellyfish pulsating under water. Their bodies are transparent and glowing in deep ocean.

(许多斑点水母在水下搏动。它们的身体透明,在深海中闪闪发光。)

再比如生成人物视频,输入 prompt:

A lone cowboy rides his horse across an open plain at beautiful sunset, soft light, warm colors.

(在美丽的日落、柔和的光线、温暖的色彩下,一个孤独的牛仔骑着马穿过开阔的平原。)

近景人物视频,输入 prompt:

A woman sitting alone in a dimly lit cafe, a half-finished novel open in front of her. Film noir aesthetic, mysterious atmosphere. Black and white.

(一个女人独自坐在灯光昏暗的咖啡馆里,一本未完成的小说摊在她面前。黑色电影唯美,神秘气氛。黑白。)

值得注意的是,Veo 模型提供了前所未有的创意控制水平,并理解「延时拍摄」、「航拍」等电影术语,使视频连贯、逼真。

例如电影级海岸线航拍镜头,输入 prompt:

Drone shot along the Hawaii jungle coastline, sunny day

(无人机沿夏威夷丛林海岸线拍摄,阳光明媚的日子)

Veo 还支持以图像和文本一起作为 prompt,来生成视频。通过提供参考图像与文本提示,Veo 生成的视频会遵循图像风格和用户文本说明。

有趣的是,谷歌发布的 demo 是 Veo 生成的「羊驼」视频,很容易让人联想到 Meta 的开源系列模型 Llama。

559cbe3f7544d0b8277d9a6207f3ec01.gif

在长视频方面,Veo 能够制作 60 秒甚至更长的视频。它可以通过单个 prompt 来完成此操作,也可以通过提供一系列 prompt 来完成此操作,这些 prompt 一起讲述一个故事。这一点对视频生成模型应用于影视制作非常关键。

Veo 以谷歌的视觉内容生成工作为基础,包括生成式查询网络 (GQN)、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet、Lumiere 等。

9b014feff2d36948289d7fbd30b09141.png

从今天开始,谷歌会为一些创作者在 VideoFX 中提供预览版 Veo,创作者可以加入谷歌的 waitlist。谷歌还将把 Veo 的一些功能引入 YouTube Shorts 等产品。

文生图新模型 Imagen 3

在文本到图像生成方面,谷歌再次升级了系列模型 —— 发布 Imagen 3。

Imagen 3 在生成细节、光照、干扰等方面进行了优化升级,并且理解 prompt 的能力显著增强。

为了帮助 Imagen 3 从较长的 prompt 中捕捉细节,例如特定的摄像机角度或构图,谷歌在训练数据中每个图像的标题中添加了更丰富的细节。

例如,在输入 prompt 中添加「在前景中略微虚焦」、「温暖光线」等,Imagen 3 就可以按照要求生成图像:

784a7d8a02dcee8060c40746cff6cc9f.png

此外,谷歌特别针对图像生成中「文字模糊」的问题进行了改进,即优化了图像渲染,使生成图像中文字清晰并风格化。

8318256318247f62e3fbf8fe04da6a15.png

为了提高可用性,Imagen 3 将提供多个版本,每个版本都针对不同类型的任务进行了优化。

从今天开始,谷歌为一些创作者在 ImageFX 中提供 Imagen 3 预览版,用户可以注册加入 waitlist。

第六代 TPU 芯片 Trillium

生成式 AI 正在改变人类与技术交互的方式,同时为企业带来巨大的增效机会。但这些进步需要更多的计算、内存和通信能力,以训练和微调功能最强大的模型。

为此,谷歌推出第六代 TPU Trillium,这是迄今为止性能最强大、能效最高的 TPU,将于 2024 年底正式上线。

TPU Trillium 是一种高度定制化的 AI 专用硬件,此次 Google I/O 大会上宣布的多项创新,包括 Gemini 1.5 Flash、Imagen 3 和 Gemma 2 等新模型,均在 TPU 上进行训练并使用 TPU 提供服务。

1cbf13b311e37c953d078eda1afa5b17.png

据介绍,与 TPU v5e 相比,Trillium TPU 的每芯片峰值计算性能提高了 4.7 倍,同时它还把高带宽内存(HBM)以及芯片间互连(ICI)带宽加倍。此外,Trillium 配备了第三代 SparseCore,专门用于处理高级排名和推荐工作负载中常见的超大型嵌入。

谷歌表示,Trillium 能够以更快的速度训练新一代 AI 模型,同时减少延迟和降低成本。此外,Trillium 还被称为迄今为止谷歌最具可持续性的 TPU,与其前代产品相比,能效提高了超过 67%。

Trillium 可以在单个高带宽、低延迟的计算集群(pod)中扩展到多达 256 个 TPU(张量处理单元)。除了这种集群级别的扩展能力之外,通过多片技术(multislice technology)和智能处理单元(Titanium Intelligence Processing Units,IPUs),Trillium TPU 可以扩展到数百个集群,连接成千上万的芯片,形成一个由每秒数 PB(multi-petabit-per-second)数据中心网络互联的超级计算机。

谷歌早在 2013 年就推出了首款 TPU v1,随后在 2017 年推出了云 TPU,这些 TPU 一直在为实时语音搜索、照片对象识别、语言翻译等各种服务提供支持,甚至为自动驾驶汽车公司 Nuro 等产品提供技术动力。

Trillium 也是谷歌 AI Hypercomputer 的一部分,这是一种开创性的超级计算架构,专为处理尖端的 AI 工作负载而设计。谷歌正在与 Hugging Face 合作,优化开源模型训练和服务的硬件。

d475bfd52c84c27c282004e152936b7b.png

以上,就是今天谷歌 I/O 大会的所有重点内容了。可以看出,谷歌在大模型技术与产品方面与 OpenAI 展开了全面竞争的态势。而通过这两天 OpenAI 与谷歌的发布,我们也能发现大模型竞争进入了到了一个新的阶段:多模态、更自然地交互体验成为了大模型技术产品化并为更多人所接受的关键。

期待 2024 年,大模型技术与产品创新,能为我们带来更多的惊喜。

参考内容:

https://blog.google/inside-google/message-ceo/google-io-2024-keynote-sundar-pichai/#creating-the-future

https://blog.google/technology/ai/google-gemini-update-flash-ai-assistant-io-2024/

1ba2145255fa48800878ba579d72febf.gif

END

1a700577be7540c2860098845f8e53db.gif

a3e3026afee981380a79e640e7a1a137.gif

转载请联系本公众号获得授权

5e32cc907bf41ae69df111c1da9d7f75.gif

计算机视觉研究院学习群等你加入!

ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域,主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架,提供论文一键下载,并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!

190a17cc2b35e407a03e088312792574.png

 往期推荐 

🔗

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值