谷歌反击：Project Astra正面硬刚GPT-4o、Veo对抗Sora、新版Gemini变革搜索

最新推荐文章于 2024-07-10 10:21:01 发布

计算机视觉研究院

最新推荐文章于 2024-07-10 10:21:01 发布

阅读量79

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=MzU0NTAyNTQ1OQ==&mid=2247535642&idx=3&sn=43069ac25027f0cb9cc5ceb9ef8b5493&chksm=fa3a7d1b79f976754a7825ea092488c3d7003a09a98869d44f25470231b26b7405d075e8ee56&scene=126&sessionid=0

版权

点击蓝字

关注我们

关注并星标

从此不迷路

计算机视觉研究院

公众号ID｜计算机视觉研究院

学习群｜扫码在主页获取加入方式

计算机视觉研究院专栏

Column of Computer Vision Institute

这就是谷歌对 OpenAI 的回应。

是的，每一分钟都在讲 AI。

Gemini 1.5 Flash 具有很强的多模态推理能力，并具有突破性的长上下文窗口。

Gemini 1.5 Flash 性能表现。来源 https://deepmind.google/technologies/gemini/#introduction

谷歌即将推出 Ask Photos 功能。以 Google Photos 举例，该功能大约在九年前推出。如今，用户每天上传的照片和视频数量超过 60 亿张。人们喜欢使用照片来搜索他们的生活。Gemini 让这一切变得更加容易。

假设你正在停车场付款，但不记得自己的车牌号码。之前，你可以在照片中搜索关键字，然后滚动浏览多年的照片，寻找车牌。现在，你只需询问照片即可。

又比如，你回忆女儿露西娅的早期生活。现在，你可以问照片：露西亚什么时候学会游泳的？你还可以跟进一些更复杂的事情：告诉我露西娅的游泳进展如何。

在这里，Gemini 超越了简单的搜索，识别了不同的背景 —— 包括游泳池、大海等不同场景，照片将所有内容汇总在一起，以便用户查看。谷歌将于今年夏天推出 Ask Photos 功能，并且还将推出更多功能。

新一代开源大模型 Gemma 2

今天，谷歌还发布了开源大模型 Gemma 的一系列更新 ——Gemma 2 来了。

据介绍，Gemma 2 采用全新架构，旨在实现突破性的性能和效率，新开源的模型参数为 27B。

此外，Gemma 家族也在随着 PaliGemma 的扩展而扩展，PaliGemma 是谷歌受 PaLI-3 启发的第一个视觉语言模型。

通用 AI 智能体 Project Astra

一直以来，智能体都是 Google DeepMind 的重点研究方向。

昨天，我们围观了 OpenAI 的 GPT-4o，为其强大的实时语音、视频交互能力所震撼。

今天，DeepMind 的视觉与语音交互通用 AI 智能体项目 Project Astra 亮相，这是 Google DeepMind 对未来 AI 助手的一个展望。

谷歌表示，为了真正发挥作用，智能体需要像人类一样理解和响应复杂、动态的真实世界，也需要吸收并记住所看到和听到的内容，以了解上下文并采取行动。此外，智能体还需要具有主动性、可教育和个性化，以便用户可以自然地与它交谈，没有滞后或延迟。

在过去的几年里，谷歌一直致力于改进模型的感知、推理和对话方式，以使交互的速度和质量更加自然。

在今天的 Keynote 中， Google DeepMind 展示了 Project Astra 的交互能力：

据介绍，谷歌是在 Gemini 的基础上开发了智能体原型，它可以通过连续编码视频帧、将视频和语音输入组合到事件时间线中并缓存此信息以进行有效调用，从而更快地处理信息。

通过语音模型，谷歌还强化了智能体的发音，为智能体提供了更广泛的语调。这些智能体可以更好地理解他们所使用的上下文，并在对话中快速做出响应。

这里简单评论一下。机器之心感觉 Project Astra 项目发布的 Demo，在交互体验上要比 GPT-4o 实时演示的能力要差许多。无论是响应的时长、语音的情感丰富度、可打断等方面，GPT-4o 的交互体验似乎更自然。不知道读者们感觉如何？

反击 Sora：发布视频生成模型 Veo

在 AI 生成视频方面，谷歌宣布推出视频生成模型 Veo。Veo 能够生成各种风格的高质量 1080p 分辨率视频，时长可以超过一分钟。

凭借对自然语言和视觉语义的深入理解，Veo 模型在理解视频内容、渲染高清图像、模拟物理原理等方面都有所突破。Veo 生成的视频能够准确、细致地表达用户的创作意图。

例如，输入文本 prompt：

Many spotted jellyfish pulsating under water. Their bodies are transparent and glowing in deep ocean.

（许多斑点水母在水下搏动。它们的身体透明，在深海中闪闪发光。）

再比如生成人物视频，输入 prompt：

A lone cowboy rides his horse across an open plain at beautiful sunset, soft light, warm colors.

（在美丽的日落、柔和的光线、温暖的色彩下，一个孤独的牛仔骑着马穿过开阔的平原。）

近景人物视频，输入 prompt：

A woman sitting alone in a dimly lit cafe, a half-finished novel open in front of her. Film noir aesthetic, mysterious atmosphere. Black and white.

（一个女人独自坐在灯光昏暗的咖啡馆里，一本未完成的小说摊在她面前。黑色电影唯美，神秘气氛。黑白。）

值得注意的是，Veo 模型提供了前所未有的创意控制水平，并理解「延时拍摄」、「航拍」等电影术语，使视频连贯、逼真。

例如电影级海岸线航拍镜头，输入 prompt：

Drone shot along the Hawaii jungle coastline, sunny day

（无人机沿夏威夷丛林海岸线拍摄，阳光明媚的日子）

Veo 还支持以图像和文本一起作为 prompt，来生成视频。通过提供参考图像与文本提示，Veo 生成的视频会遵循图像风格和用户文本说明。

有趣的是，谷歌发布的 demo 是 Veo 生成的「羊驼」视频，很容易让人联想到 Meta 的开源系列模型 Llama。

在长视频方面，Veo 能够制作 60 秒甚至更长的视频。它可以通过单个 prompt 来完成此操作，也可以通过提供一系列 prompt 来完成此操作，这些 prompt 一起讲述一个故事。这一点对视频生成模型应用于影视制作非常关键。

Veo 以谷歌的视觉内容生成工作为基础，包括生成式查询网络 (GQN)、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet、Lumiere 等。

从今天开始，谷歌会为一些创作者在 VideoFX 中提供预览版 Veo，创作者可以加入谷歌的 waitlist。谷歌还将把 Veo 的一些功能引入 YouTube Shorts 等产品。

文生图新模型 Imagen 3

在文本到图像生成方面，谷歌再次升级了系列模型 —— 发布 Imagen 3。

Imagen 3 在生成细节、光照、干扰等方面进行了优化升级，并且理解 prompt 的能力显著增强。

为了帮助 Imagen 3 从较长的 prompt 中捕捉细节，例如特定的摄像机角度或构图，谷歌在训练数据中每个图像的标题中添加了更丰富的细节。

例如，在输入 prompt 中添加「在前景中略微虚焦」、「温暖光线」等，Imagen 3 就可以按照要求生成图像：

此外，谷歌特别针对图像生成中「文字模糊」的问题进行了改进，即优化了图像渲染，使生成图像中文字清晰并风格化。

为了提高可用性，Imagen 3 将提供多个版本，每个版本都针对不同类型的任务进行了优化。

从今天开始，谷歌为一些创作者在 ImageFX 中提供 Imagen 3 预览版，用户可以注册加入 waitlist。

第六代 TPU 芯片 Trillium

生成式 AI 正在改变人类与技术交互的方式，同时为企业带来巨大的增效机会。但这些进步需要更多的计算、内存和通信能力，以训练和微调功能最强大的模型。

为此，谷歌推出第六代 TPU Trillium，这是迄今为止性能最强大、能效最高的 TPU，将于 2024 年底正式上线。

TPU Trillium 是一种高度定制化的 AI 专用硬件，此次 Google I/O 大会上宣布的多项创新，包括 Gemini 1.5 Flash、Imagen 3 和 Gemma 2 等新模型，均在 TPU 上进行训练并使用 TPU 提供服务。

据介绍，与 TPU v5e 相比，Trillium TPU 的每芯片峰值计算性能提高了 4.7 倍，同时它还把高带宽内存（HBM）以及芯片间互连（ICI）带宽加倍。此外，Trillium 配备了第三代 SparseCore，专门用于处理高级排名和推荐工作负载中常见的超大型嵌入。

谷歌表示，Trillium 能够以更快的速度训练新一代 AI 模型，同时减少延迟和降低成本。此外，Trillium 还被称为迄今为止谷歌最具可持续性的 TPU，与其前代产品相比，能效提高了超过 67%。

Trillium 可以在单个高带宽、低延迟的计算集群（pod）中扩展到多达 256 个 TPU（张量处理单元）。除了这种集群级别的扩展能力之外，通过多片技术（multislice technology）和智能处理单元（Titanium Intelligence Processing Units，IPUs），Trillium TPU 可以扩展到数百个集群，连接成千上万的芯片，形成一个由每秒数 PB（multi-petabit-per-second）数据中心网络互联的超级计算机。

谷歌早在 2013 年就推出了首款 TPU v1，随后在 2017 年推出了云 TPU，这些 TPU 一直在为实时语音搜索、照片对象识别、语言翻译等各种服务提供支持，甚至为自动驾驶汽车公司 Nuro 等产品提供技术动力。

Trillium 也是谷歌 AI Hypercomputer 的一部分，这是一种开创性的超级计算架构，专为处理尖端的 AI 工作负载而设计。谷歌正在与 Hugging Face 合作，优化开源模型训练和服务的硬件。

以上，就是今天谷歌 I/O 大会的所有重点内容了。可以看出，谷歌在大模型技术与产品方面与 OpenAI 展开了全面竞争的态势。而通过这两天 OpenAI 与谷歌的发布，我们也能发现大模型竞争进入了到了一个新的阶段：多模态、更自然地交互体验成为了大模型技术产品化并为更多人所接受的关键。

期待 2024 年，大模型技术与产品创新，能为我们带来更多的惊喜。

参考内容：

https://blog.google/inside-google/message-ceo/google-io-2024-keynote-sundar-pichai/#creating-the-future

https://blog.google/technology/ai/google-gemini-update-flash-ai-assistant-io-2024/

END

转载请联系本公众号获得授权

计算机视觉研究院学习群等你加入！

ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域，主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架，提供论文一键下载，并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程，让大家真正体会摆脱理论的真实场景，培养爱动手编程爱动脑思考的习惯！