2024年05月15日_解读谷歌2024年I/O大会_2024年5月谷歌算法-CSDN博客

本文链接：https://blog.csdn.net/weixin_41748874/article/details/138959268

经过昨天 OpenAI GPT-4o的发布会

所有人都在等着今天来自谷歌的反击

如果说2023年的I/O大会

是谷歌在AI领域的背水一战

那么今天谷歌的I/O大会

就好像有点绝招尽出、疲态尽显的意思了

两个小时的发布会

谷歌一口气拿出来14款新品和升级

算上其他方面总共有20多项

绝对的量大管饱

全面对标OpenAI在AI各个领域上的发展

但是，我第一个感觉就是乱

这里必须吐槽一下谷歌的产品规划

光一个Gemini就衍生出了多少个版本

搞得人晕头转向

所以我万一说串了别怪我

另外就是各个产品的Demo演示

先不说有多少水分

至少整场发布会没有一点能给人带来惊艳的感觉

全部都是在追赶OpenAI已有的功能

看得我是昏昏欲睡

本来想看一场巅峰对决

但是没想到一出手就已经结束了

更何况，这次发布的各个产品

基本上还都是期货

少数几个才上线的产品其实都是去年发布的

只希望别像国内的房地产一样

最后变成了一大片遥遥无期的烂尾楼

好吧，言归正传

我还是要来介绍一下谷歌I/O这次的内容

Gemini模型家族

首先，还是最重要的Gemini模型家族

好消息是

三个月前发布的Gemini 1.5 Pro终于可以用了

从今天起它将正式开放给订阅了Gemini Advance的用户

除此之外

Gemini 1.5 Pro在四个基础模型最重要的维度都做了加强

1、模型性能

首先是模型性能

谷歌通过数据和算法改进

增强了它代码生成、逻辑推理和计划、多回合对话以及音频和图像理解能力

最新版本的1.5 Pro

也在多个benchmark中取得了Sota的成绩

2、上下文

在上下文方面

谷歌还把新Gemini 1.5 Pro的上下文窗口

从业界最高的100万token

扩展到相当于300本书的200万token

三个月提升了一倍

证明了上下文以后应该不会再是什么门槛了

3、多模态

在多模态支持上

Gemini 1.5 Pro补齐了语音理解的短板

虽然不像GPT-4o一样是原生语音多模态

但是总算是凑齐了全模态

4、指令跟随

而在指令跟随能力方面

Gemini 1.5 Pro也进行了一轮更新

现在可以遵循越来越复杂和细微的指令

包括那些指定产品级行为

比如角色、格式和风格的指令

比方说

你现在能让Gemini假装自己是猫了

Gemini 1.5 flash

虽然没有公布Gemini 2

但是谷歌公开了另一款模型Gemini 1.5 Flash

主打快速反应

但是跟昨天的GPT-4o完美撞车

从功能上看

虽然它比1.5 Pro更加轻量化

但是它也能够进行多模态推理

并且擅长摘要、聊天、图像和视频字幕、长文档和表格的数据提取等工作

与GPT-4o不同

Gemini 1.5 Flash为了达到快速响应

还是牺牲了一些性能

从技术文档上看，Flash模型通过蒸馏

从较大的模型中传递最重要的知识和技能

到较小、更高效的模型

实现了速度的提升

这里展示的能力是需要Agent支持的

Project Astra

因此谷歌的下一个重磅产品是Project Astra

谷歌也将它定义为自己的Agent战略的核心

Project Astra是一种Agent框架

它能够像人类一样

理解和响应复杂多变的世界

并且记住它所看到和听到的内容

从而理解上下文并采取行动

它还具有主动性、可教性和个性化

这样用户可以自然地与它交流

而不会感觉有滞后或者延迟

在谷歌的展示中

它的最佳形态就是个人助手

所以，为了让它更有用

谷歌通过持续编码视频帧、将视频和语音输入结合到事件时间线上

并缓存这些信息

利用高效回忆来更快地处理信息

另外通过语音模型

谷歌还增强了Astra的声音

让Agent具有更广泛的语调

并且可以更好地理解它们所处的上下文

同时在对话中快速响应

从演示上看

Astra的视觉理解能力确实不俗

它可以理解薛定谔的猫之类的梗

反馈速度也非常快捷

但是它也并没有超越大家的想象

整个演示的感觉就是又看了一遍GPT-4o的视频沟通Demo

而且相比GPT-4o

它可能还要晚好几个月才能上线

所以看到这里

我有理由充分怀疑

谷歌内部绝对有OpenAI的内鬼

不然怎么能这么精准的被狙击

开源模型Gemma的2.0版本、PaliGemma

除了这两个核心模型的更新以外

谷歌还宣布了开源模型Gemma的2.0版本

270亿参数，将在6月份发布

并且为它拓展了PaliGemma这个多模态的版本

考虑到Llama3官方还没有微调多模态

所以PaliGemma很可能是目前最强的官方开源多模态大模型

除了新公开的文生视频模型

谷歌还推出了文生图像模型Imagen-3

从细节真实度来看

能够与Midjourney-v6达到同一个级别

比起Dalle-3来说更胜一筹

而且在细节的跟随上也更加细致

Imagen-3 + Midjourney-v6 > Dalle-3

音乐生成方面

去年惊艳众人的Lydia到目前为止还没有发布

但是这次谷歌又给它加了个新拓展Music AI Sandbox

这是一套音乐AI工具

目的是想改变音乐的创作方式

比如说音乐家可以直接用一段哼唱或者弹奏的灵感片段

来生成一首歌或者一段真正的旋律

视频生成模型Veo

最后

谷歌介绍了自己的视频生成模型

Veo

它属于谷歌之前的一系列视频生成尝试的集大成者

融合了WALT、VideoPoet、Lumiere这几款文生视频模型的长处

从能力上看它相当能打

可以生成高质量的1080p分辨率视频

能够超过一分钟

涵盖广泛的电影和视觉风格

从演示视频上看

Veo生成的画面相当一致而且连贯

人物、动物和物体在镜头中的移动也很真实

谷歌还表示

Veo具有对自然语言和视觉语义的高级理解能力

能够生成与用户创意愿景紧密匹配的视频

比方说准确呈现详细的长提示并且捕捉情感

Veo甚至还能理解电影术语

比如“延时”或“航拍镜头”。

不难看出

Veo就是为了对标OpenAI的Sora

但是说实话，现场的演示效果很差

看不清细节

远远不如当初Sora发布时带给大家的震撼感

而且和Sora一样

Veo目前只会将作为VideoFX的私人预览版

提供给少量创作者

所以我们也只能等待

看到底它俩谁会最先推出使用了

AI搜索

除了模型之外

AI搜索可以说是谷歌的必争之地了

面对着像Perplexity这些来势汹汹、号称要取代谷歌搜索的新秀们

谷歌也得想办法保住自己最主要的阵地

在会上

谷歌发布了更强的AI搜索引擎AI Overview

目前仅限于美国

本周内会陆续开放给其他国家

从Demo展示来看

谷歌搜索在功能上的创新并不多

主要集中在多模态

提示调整搜索结果

首先

用户能够通过简化或者详细的语言提示

来调整AI搜索结果的详细程度

这个功能并不新

目前主流的AI搜索产品基本都有

多步推理

其次，借助Gemini的多步推理能力

AI搜索可以一次性处理复杂的多步骤问题、甚至是多个问题

比方说

当用户想要寻找一个新的瑜伽或者普拉提工作室

并且希望它是受当地人欢迎的

通勤方便，并且还提供新会员折扣

那么仅需通过一次搜索询问

谷歌AI搜索就可以直接给出最佳答案

这也是目前其他AI搜索产品

正在努力攻破的一个方向

在这方面应该说谷歌有着强大的积累和优势

计划功能

同样

构建在多步骤推理能力之上的是AI搜索的计划能力

通过AI搜索中的计划功能

你可以直接在搜索里获得一个完整的计划

比如搜索类似“为一群人创建一个容易准备的三天餐饮计划”，

那么AI搜索将返回来自网络的各种食谱

在结果上组织的更加漂亮

用户体验更好

灵感延展

最后是灵感延展的功能

就是当你在问了一个问题之后

谷歌搜索会延展到其他可能你感兴趣的结果

由AI来生成标题分类

同时展示更加广泛的内容

当然这种联想搜索的能力

也已经是AI搜索的某种标配了

只不过谷歌对这个功能做了更好的结构化

多模态搜索 - 声音、图片、视频

相对于其他的AI搜索

它们暂时做不到的应该就是多模态搜索了

依靠Gemini的多模态功能

谷歌可以做到利用声音搜歌曲

利用图片搜产品

甚至可以用Circle to Search功能

圈出图片中的一部分去搜索

此外，AI还能结合视频进行搜索

谷歌举了个示例

比如用户在旧货店买了一台唱片机

但是打开时无法工作

因为带有针头的金属部件坏了

那么就可以直接拍个视频得到答案

通过视频搜索

可以节省用户描述这个问题的时间和麻烦

如果说上面这些还只是没什么新意

那么模型产品可以说是最让人失望的环节了

还多少让人看出谷歌的保守态势

结合Gemini的Wrokspace

首先登场的是结合Gemini的Wrokspace

你可以通过Side Panel功能总结一系列的邮件

或者将账单总结成一个Sheet

然后自动回复邮件

其实都是去年已经看过的功能

虚拟员工Chip

其他的更新

包括在聊天软件里的虚拟员工Chip

能力基本与国内各种办公软件Agent的演示相当

Gemini Live

模型产品里最重要的更新就是Gemini Live

这是一个移动对话助理的产品

通过Gemini Live

用户可以与Gemini对话

并且选择它可以用来回应的各种自然声音

用户甚至可以按照自己的节奏说话

或者在回答中途打断它

就像我们在日常对话中一样

而且今年的晚些时候

用户还将能够使用摄像头

根据周围所见内容进行对话

是不是又想起了GPT-4o呢

Gems

最尴尬的还要数Gems的登场

全场鸦雀无声

这个就是谷歌晚了半年推出的GPTs

用户可以创建一个定制化的Gemini

通过描述希望它做什么以及希望它如何回应

比如

你是我的跑步教练

给我一个每日跑步计划

并且保持积极、乐观和激励的态度

Gemini将会根据这些指示进行增强

创建一个符合你的特定需求的Gem

而且它还只能通过提示词来定制

没有外接工具

也没有工作流

API扩展功能

这次还扩大了去年上线的API扩展功能

比方说正在推出的YouTube Music扩展、Google Calendar、Tasks和Keep

全是谷歌自家的服务

不过即便是加上这些新拓展

和其他产品相比也是少的可怜

Android AI

这次大会Android AI方面的重点

是介绍了Gemini的手机应用

可以和手机上正在展示的内容进行互动

比如阅读打开的PDF

从你正在看的YouTube频道反馈问题

但是相比起GPT-4o可以看到桌面上发生的一切

Android AI还需要读取打开的文件

嗯，又是落后了一筹

整场发布会我觉得最有技术含量的

第六代TPU - Trillium

可能还得算是最新的第六代TPU

Trillium

相较于前代

它的进步还是非常明显的

Trillium实现了每芯片峰值计算性能4.7倍的提升

比TPUv5e提高了一倍

HBM的容量和带宽

以及芯片间互连ICI的带宽

也比v5e翻了一番

此外

Trillium配备了第三代SparseCore

这是一种专门用于处理超大嵌入的加速器

常见于先进的排序和推荐工作中

Trillium TPU不仅能够让训练基础模型变得更快

带来更低的延迟和更低的成本

还可以扩展到一个包含256个TPU的高带宽低延迟Pod上

另外

能耗上Trillium也比TPU v5e的效率提高了67%以上

可以说省电能力一流

除了以上这些之外

大会还提到了AI基础设施、AI辅助红队、扩展SynthID水印功能、扩展负责任的生成式AI工具包等等

总结

我就不多介绍了

大家有兴趣可以去了解一下

总体来说，无论是这次谷歌IO大会

还是我做这期视频

都有点兴致寥寥

整个大会更像是一个PPT宣传片

很多产品介绍还是重复的

演讲嘉宾换来换去

却都是同样的索然无味

从底下观众大部分时间稀稀拉拉的掌声中

也可以感觉的出来

虽然有昨天OpenAI发布会的一定影响

但是谷歌确实没有让大家看到

令人惊叹的技术突破

或者让人兴奋的产品演示

有的只是预期中甚至低于预期的表现

以及对同行产品的追赶

在这样一个无比需要想象力的时代

谷歌可能需要尽快找回

它当初那个最宝贵的想象力了