文章目录
经过昨天
OpenAI GPT-4o的发布会
所有人都在等着今天来自谷歌的反击
如果说2023年的I/O大会
是谷歌在AI领域的背水一战
那么今天谷歌的I/O大会
就好像有点绝招尽出、疲态尽显
的意思了
两个小时的发布会
谷歌一口气拿出来14款新品和升级
算上其他方面总共有20多项
绝对的量大管饱
全面对标OpenAI在AI各个领域上的发展
但是,我第一个感觉就是乱
这里必须吐槽一下谷歌的产品规划
光一个Gemini
就衍生出了多少个版本
搞得人晕头转向
所以我万一说串了别怪我
另外就是各个产品的Demo演示
先不说有多少水分
至少整场发布会没有一点能给人带来惊艳的感觉
全部都是在追赶OpenAI已有的功能
看得我是昏昏欲睡
本来想看一场巅峰对决
但是没想到一出手就已经结束了
更何况,这次发布的各个产品
基本上还都是期货
少数几个才上线的产品
其实都是去年发布的
只希望别像国内的房地产
一样
最后变成了一大片遥遥无期的烂尾楼
好吧,言归正传
我还是要来介绍一下谷歌I/O这次的内容
Gemini模型家族
首先,还是最重要的Gemini模型家族
好消息是
三个月前发布的Gemini 1.5 Pro
终于可以用了
从今天起它将正式开放给订阅了Gemini Advance的用户
除此之外
Gemini 1.5 Pro
在四个基础模型最重要的维度都做了加强
1、模型性能
首先是模型性能
谷歌通过数据
和算法
改进
增强了它代码生成
、逻辑推理和计划
、多回合对话
以及音频和图像理解能力
最新版本的1.5 Pro
也在多个benchmark中取得了Sota的成绩
2、上下文
在上下文方面
谷歌还把新Gemini 1.5 Pro的上下文窗口
从业界最高的100万token
扩展到相当于300本书的200万token
三个月提升了一倍
证明了上下文以后应该不会再是什么门槛了
3、多模态
在多模态
支持上
Gemini 1.5 Pro补齐了语音理解
的短板
虽然不像GPT-4o一样是原生语音多模态
但是总算是凑齐了全模态
4、指令跟随
而在指令跟随能力
方面
Gemini 1.5 Pro也进行了一轮更新
现在可以遵循越来越复杂和细微的指令
包括那些指定产品级行为
比如角色
、格式
和风格
的指令
比方说
你现在能让Gemini假装自己是猫了
Gemini 1.5 flash
虽然没有公布Gemini 2
但是谷歌公开了另一款模型Gemini 1.5 Flash
主打快速反应
但是跟昨天的GPT-4o完美撞车
从功能上看
虽然它比1.5 Pro更加轻量化
但是它也能够进行多模态推理
并且擅长摘要、聊天、图像和视频字幕、长文档和表格的数据提取
等工作
与GPT-4o
不同
Gemini 1.5 Flash
为了达到快速响应
还是牺牲了一些性能
从技术文档上看,Flash模型通过蒸馏
从较大的模型中传递最重要的知识和技能
到较小、更高效的模型
实现了速度的提升
这里展示的能力是需要Agent支持的
Project Astra
因此谷歌的下一个重磅产品是Project Astra
谷歌也将它定义为自己的Agent战略的核心
Project Astra
是一种Agent框架
它能够像人类一样
理解和响应复杂多变的世界
并且记住它所看到和听到的内容
从而理解上下文并采取行动
它还具有主动性、可教性和个性化
这样用户可以自然地与它交流
而不会感觉有滞后或者延迟
在谷歌的展示中
它的最佳形态就是个人助手
所以,为了让它更有用
谷歌通过持续编码视频帧、将视频和语音输入结合到事件时间线上
并缓存这些信息
利用高效回忆来更快地处理信息
另外通过语音模型
谷歌还增强了Astra的声音
让Agent具有更广泛的语调
并且可以更好地理解它们所处的上下文
同时在对话中快速响应
从演示上看
Astra的视觉理解能力
确实不俗
它可以理解薛定谔的猫
之类的梗
反馈速度也非常快捷
但是它也并没有超越大家的想象
整个演示的感觉就是又看了一遍GPT-4o的视频沟通Demo
而且相比GPT-4o
它可能还要晚好几个月才能上线
所以看到这里
我有理由充分怀疑
谷歌内部绝对有OpenAI的内鬼
不然怎么能这么精准的被狙击
开源模型Gemma的2.0版本、PaliGemma
除了这两个核心模型的更新以外
谷歌还宣布了开源模型Gemma的2.0版本
270亿参数
,将在6月份发布
并且为它拓展了PaliGemma
这个多模态的版本
考虑到Llama3官方
还没有微调多模态
所以PaliGemma很可能是目前最强的官方开源多模态大模型
除了新公开的文生视频模型
谷歌还推出了文生图像模型Imagen-3
从细节真实度来看
能够与Midjourney-v6
达到同一个级别
比起Dalle-3
来说更胜一筹
而且在细节的跟随
上也更加细致
Imagen-3 + Midjourney-v6 > Dalle-3
音乐生成方面
去年惊艳众人的Lydia
到目前为止还没有发布
但是这次谷歌又给它加了个新拓展Music AI Sandbox
这是一套音乐AI工具
目的是想改变音乐的创作方式
比如说音乐家
可以直接用一段哼唱或者弹奏的灵感片段
来生成一首歌或者一段真正的旋律
视频生成模型Veo
最后
谷歌介绍了自己的视频生成模型
Veo
它属于谷歌之前的一系列视频生成尝试
的集大成者
融合了WALT
、VideoPoet
、Lumiere
这几款文生视频模型
的长处
从能力上看它相当能打
可以生成高质量的1080p分辨率视频
能够超过一分钟
涵盖广泛的电影和视觉风格
从演示视频上看
Veo生成的画面相当一致而且连贯
人物、动物和物体在镜头中的移动也很真实
谷歌还表示
Veo
具有对自然语言和视觉语义的高级理解能力
能够生成与用户创意愿景紧密匹配的视频
比方说准确呈现详细的长提示
并且捕捉情感
Veo甚至还能理解电影术语
比如“延时”或“航拍镜头”。
不难看出
Veo
就是为了对标OpenAI的Sora
但是说实话,现场的演示效果很差
看不清细节
远远不如当初Sora发布时带给大家的震撼感
而且和Sora一样
Veo目前只会将作为VideoFX的私人预览版
提供给少量创作者
所以我们也只能等待
看到底它俩谁会最先推出使用了
AI搜索
除了模型之外
AI搜索可以说是谷歌的必争之地了
面对着像Perplexity
这些来势汹汹、号称要取代谷歌搜索的新秀们
谷歌也得想办法保住自己最主要的阵地
在会上
谷歌发布了更强的AI搜索引擎AI Overview
目前仅限于美国
本周内会陆续开放给其他国家
从Demo展示来看
谷歌搜索在功能上的创新并不多
主要集中在多模态
提示调整搜索结果
首先
用户能够通过简化或者详细的语言提示
来调整AI搜索结果的详细程度
这个功能并不新
目前主流的AI搜索产品基本都有
多步推理
其次,借助Gemini的多步推理能力
AI搜索可以一次性处理复杂的多步骤问题、甚至是多个问题
比方说
当用户想要寻找一个新的瑜伽或者普拉提工作室
并且希望它是受当地人欢迎的
通勤方便,并且还提供新会员折扣
那么仅需通过一次搜索询问
谷歌AI搜索就可以直接给出最佳答案
这也是目前其他AI搜索产品
正在努力攻破的一个方向
在这方面应该说谷歌有着强大的积累和优势
计划功能
同样
构建在多步骤推理能力之上的是AI搜索的计划能力
通过AI搜索中的计划功能
你可以直接在搜索里获得一个完整的计划
比如搜索类似“为一群人创建一个容易准备的三天餐饮计划”
,
那么AI搜索将返回来自网络的各种食谱
在结果上组织的更加漂亮
用户体验更好
灵感延展
最后是灵感延展
的功能
就是当你在问了一个问题之后
谷歌搜索会延展
到其他可能你感兴趣的结果
由AI来生成标题分类
同时展示更加广泛的内容
当然这种联想搜索
的能力
也已经是AI搜索的某种标配了
只不过谷歌对这个功能做了更好的结构化
多模态搜索 - 声音、图片、视频
相对于其他的AI搜索
它们暂时做不到的应该就是多模态搜索
了
依靠Gemini的多模态功能
谷歌可以做到利用声音搜歌曲
利用图片搜产品
甚至可以用Circle to Search功能
圈出图片中的一部分去搜索
此外,AI还能结合视频进行搜索
谷歌举了个示例
比如用户在旧货店买了一台唱片机
但是打开时无法工作
因为带有针头的金属部件坏了
那么就可以直接拍个视频得到答案
通过视频搜索
可以节省用户描述这个问题的时间和麻烦
如果说上面这些还只是没什么新意
那么模型产品可以说是最让人失望的环节
了
还多少让人看出谷歌的保守态势
结合Gemini的Wrokspace
首先登场的是结合Gemini的Wrokspace
你可以通过Side Panel功能
总结一系列的邮件
或者将账单
总结成一个Sheet
然后自动回复邮件
其实都是去年已经看过的功能
虚拟员工Chip
其他的更新
包括在聊天软件里的虚拟员工Chip
能力基本与国内各种办公软件Agent的演示相当
Gemini Live
模型产品里最重要的更新就是Gemini Live
这是一个移动对话助理的产品
通过Gemini Live
用户可以与Gemini对话
并且选择它可以用来回应的各种自然声音
用户甚至可以按照自己的节奏说话
或者在回答中途打断它
就像我们在日常对话中一样
而且今年的晚些时候
用户还将能够使用摄像头
根据周围所见内容进行对话
是不是又想起了GPT-4o呢
Gems
最尴尬的还要数Gems
的登场
全场鸦雀无声
这个就是谷歌晚了半年推出的GPTs
用户可以创建一个定制化的Gemini
通过描述希望它做什么以及希望它如何回应
比如
你是我的跑步教练
给我一个每日跑步计划
并且保持积极、乐观和激励的态度
Gemini将会根据这些指示进行增强
创建一个符合你的特定需求的Gem
而且它还只能通过提示词来定制
没有外接工具
也没有工作流
API扩展功能
这次还扩大了去年上线的API扩展功能
比方说正在推出的YouTube Music扩展
、Google Calendar
、Tasks和Keep
全是谷歌自家的服务
不过即便是加上这些新拓展
和其他产品相比也是少的可怜
Android AI
这次大会Android AI
方面的重点
是介绍了Gemini的手机应用
可以和手机上正在展示的内容进行互动
比如阅读打开的PDF
从你正在看的YouTube频道
反馈问题
但是相比起GPT-4o
可以看到桌面上发生的一切
Android AI还需要读取打开的文件
嗯,又是落后了一筹
整场发布会我觉得最有技术含量的
第六代TPU - Trillium
可能还得算是最新的第六代TPU
Trillium
相较于前代
它的进步还是非常明显的
Trillium
实现了每芯片峰值计算性能4.7倍
的提升
比TPUv5e
提高了一倍
HBM
的容量和带宽
以及芯片间互连ICI
的带宽
也比v5e翻了一番
此外
Trillium配备了第三代SparseCore
这是一种专门用于处理超大嵌入的加速器
常见于先进的排序和推荐工作中
Trillium TPU
不仅能够让训练基础模型变得更快
带来更低的延迟和更低的成本
还可以扩展到一个包含256个TPU
的高带宽低延迟Pod
上
另外
能耗上Trillium
也比TPU v5e
的效率提高了67%
以上
可以说省电能力一流
除了以上这些之外
大会还提到了AI基础设施
、AI辅助红队
、扩展SynthID水印功能
、扩展负责任的生成式AI工具包
等等
总结
我就不多介绍了
大家有兴趣可以去了解一下
总体来说,无论是这次谷歌IO大会
还是我做这期视频
都有点兴致寥寥
整个大会更像是一个PPT宣传片
很多产品介绍还是重复的
演讲嘉宾换来换去
却都是同样的索然无味
从底下观众大部分时间稀稀拉拉的掌声中
也可以感觉的出来
虽然有昨天OpenAI发布会的一定影响
但是谷歌确实没有让大家看到
令人惊叹的技术突破
或者让人兴奋的产品演示
有的只是预期中甚至低于预期的表现
以及对同行产品的追赶
在这样一个无比需要想象力的时代
谷歌可能需要尽快找回
它当初那个最宝贵的想象力
了