在AI瓶中的神灯精灵 - 详解Google Genie

本文介绍了名为神灯的AI技术,它能通过图像和动作指令生成动态画面,利用时空变换器、注意力机制和无监督学习,预示着AI在视频理解和创作方面的重大进步。作者探讨了其工作原理,以及对未来机器人代理和世界模型的潜力影响。
摘要由CSDN通过智能技术生成

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/


让我们来谈谈一位叫做“神灯”的超酷AI吧!这位小家伙是个时空变换大师,只需一个图像或者草图和一个动作指令,它就能创造出一个全新的画面,画面中的角色就会按你的指令行动起来。

想象一下,视频不就是一堆图片快速播放的结果嘛,神灯能让你通过指定动作来决定下一个画面应该是啥样,就好像你在实时编导自己的电子游戏一样。

比如说,给神灯一个图像和一个“跳跃”的动作,神灯就能生成一个新的画面,画面里的角色跳了起来,背景啥的也都会适应这个动作进行调整。

因此,通过不断指定动作,你就像是在实时制作一个视频游戏。

不过,要真正搞懂神灯是怎么运作的,你最好亲自去体验一下,点点看,体验过后再回来继续了解它背后的原理会更有感觉。

首先,神灯背后的关键技术之一是时空变换器(ST),这是个啥呢?

时空变换器其实是一种模型,运用了注意力机制,这个技术是支撑像ChatGPT这样的产品的基石,但它是应用在空间和时间这两个维度上的。注意力机制能让序列中的不同部分相互交流信息。比如在ChatGPT中,它帮助序列中的不同单词“交谈”,以理解整个句子的意思。

在视频中,我们用它来处理图像。

比如,我们有一个熊猫吃竹子的视频。

  • 在空间维度上,通过将每个图像分成不同的小块,注意力机制让这些小块能够共享信息,从而理解它们在图像中的角色。对于熊猫的例子,空间注意力会告诉神灯,在那一帧中熊猫正在做什么,比如嘴巴张开拿着竹子。
  • 在时间维度上,通过对多个帧进行注意力处理,时间变量的注意力机制会告诉神灯,熊猫确实在吃东西,因为帧的连续展示了这一动作。

这种时空注意力的概念被用来组装神灯。

三模型的故事
神灯其实是由三个部分组成的:

  • 一个视频分词器
  • 一个潜在动作模型
  • 一个动态模型

在深入每个部分之前,我们先来看看整个过程。对于给定的图像或一系列图像:

  1. 视频分词器将每一帧分解成它的潜在表示(我们稍后解释)。
  2. 接着,潜在动作模型观察每一帧,并预测每一帧中执行的动作,以达到下一帧。
  3. 最后,动态模型接收两个输入,即分词化的视频和每帧的动作集,以预测下一帧。

这些组件是怎么工作的呢?

视频分词
视频分词器将视频转换成一系列向量,每一帧一个向量。这些向量以更简单、压缩的方式捕捉帧的语义(它们描述了帧代表的内容)。

你可能会好奇,为什么我们需要这样做。原因有二:

  • 效率。如果你使用视频的更小、压缩的版本,成本会小得多。
  • 聚焦于重点。AI专家有一个长期的信念,那就是通过压缩数据,只保留关键概念。这样,模型将专注于重点,而不是分析原始视频中的每一个小细节,无论它们是否相关。

接下来是潜在动作模型,事情开始变得有趣了。

一个世界观察者和动态生成器
这个组件将取过去的帧历史和将一个帧转换到下一个帧的动作,并预测下一个帧会是什么。

这样,通过将下一个帧的条件设置为前面的动作,你间接地创建了一个世界模型,基于之前的观察(帧)和动作,预测接下来会发生什么。

这就引出了第三个组件,动态模型。

这个组件,一个自回归变换器(类似于ChatGPT,但是预测图像而不是文本)将使用过去提供的信息(视频分词器和动作模型)来预测未来。

比如,如果之前的图像描述了一个地牢和一个玩家,玩家向右移动,这两个输入会告诉动态模型,下一个帧应该是地牢稍微向右移动,随着你的探索创建世界。

但神灯的意义可能远不止于此…尤其是对于机器人代理领域。

机器人代理的前驱?
或许人类最大的特点,远超今日机器人能力的,就是常识,通常被称为世界模型。

人类基于过去的经验和感官输入,在我们的大脑中构建了一个世界的表示,这告诉我们例如走在路边以避免被车撞,当人们打招呼时回应,或者知道从悬崖跳下去可能不是个好主意。但常识远不止这些高层次的推理动作,我们还理解世界的物理规律,像重力、速度和加速度或运动等。

这些概念对AI来说极其复杂,使得世界模型成为最难解决的问题之一。

但有了神灯,我们可能已经找到了这样模型的前驱,因为神灯能观察它的世界并弄清楚接下来会发生什么,这是机器人想要居住在人类世界中所必需的特征,像1X或Figure AI这样的著名例子。

事实上,谷歌对这种可能性非常乐观,他们用它的RT-1机器人的视频训练了一个神灯,以至于神灯变得能够预测机器人接下来会做什么:

最吸引人的是?

神灯是以完全无监督的方式训练的,意味着它通过简单地观看视频来自行学习派生动作,这些视频完全没有提到它们所展示的动作。

尽管如此,神灯还是能够自己学会它们,这真正证明了神灯未来的进化可能能够做到的事情。

此外,它还为AI开启了使用互联网规模的视频数据,如YouTube视频,来从我们的世界中学习并解锁LLMs开发的新维度的可能性,因为视频比文字能更多地告诉我们关于世界的信息。

AI学习移动和居住在我们世界中的能力,即体现智能的一大飞跃,正在迅速接近。

非常迅速。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值