在AI瓶中的神灯精灵 - 详解Google Genie

新加坡内哥谈技术

已于 2024-03-05 00:03:25 修改

阅读量665

点赞数 17

文章标签：人工智能

于 2024-03-05 00:00:00 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2301_79342058/article/details/136444400

版权

本文介绍了名为神灯的AI技术，它能通过图像和动作指令生成动态画面，利用时空变换器、注意力机制和无监督学习，预示着AI在视频理解和创作方面的重大进步。作者探讨了其工作原理，以及对未来机器人代理和世界模型的潜力影响。

摘要由CSDN通过智能技术生成

每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/

让我们来谈谈一位叫做“神灯”的超酷AI吧！这位小家伙是个时空变换大师，只需一个图像或者草图和一个动作指令，它就能创造出一个全新的画面，画面中的角色就会按你的指令行动起来。

想象一下，视频不就是一堆图片快速播放的结果嘛，神灯能让你通过指定动作来决定下一个画面应该是啥样，就好像你在实时编导自己的电子游戏一样。

比如说，给神灯一个图像和一个“跳跃”的动作，神灯就能生成一个新的画面，画面里的角色跳了起来，背景啥的也都会适应这个动作进行调整。

因此，通过不断指定动作，你就像是在实时制作一个视频游戏。

不过，要真正搞懂神灯是怎么运作的，你最好亲自去体验一下，点点看，体验过后再回来继续了解它背后的原理会更有感觉。

首先，神灯背后的关键技术之一是时空变换器（ST），这是个啥呢？

时空变换器其实是一种模型，运用了注意力机制，这个技术是支撑像ChatGPT这样的产品的基石，但它是应用在空间和时间这两个维度上的。注意力机制能让序列中的不同部分相互交流信息。比如在ChatGPT中，它帮助序列中的不同单词“交谈”，以理解整个句子的意思。

在视频中，我们用它来处理图像。

比如，我们有一个熊猫吃竹子的视频。

在空间维度上，通过将每个图像分成不同的小块，注意力机制让这些小块能够共享信息，从而理解它们在图像中的角色。对于熊猫的例子，空间注意力会告诉神灯，在那一帧中熊猫正在做什么，比如嘴巴张开拿着竹子。
在时间维度上，通过对多个帧进行注意力处理，时间变量的注意力机制会告诉神灯，熊猫确实在吃东西，因为帧的连续展示了这一动作。

这种时空注意力的概念被用来组装神灯。

三模型的故事
神灯其实是由三个部分组成的：

一个视频分词器
一个潜在动作模型
一个动态模型

在深入每个部分之前，我们先来看看整个过程。对于给定的图像或一系列图像：

视频分词器将每一帧分解成它的潜在表示（我们稍后解释）。
接着，潜在动作模型观察每一帧，并预测每一帧中执行的动作，以达到下一帧。
最后，动态模型接收两个输入，即分词化的视频和每帧的动作集，以预测下一帧。

这些组件是怎么工作的呢？

视频分词
视频分词器将视频转换成一系列向量，每一帧一个向量。这些向量以更简单、压缩的方式捕捉帧的语义（它们描述了帧代表的内容）。

你可能会好奇，为什么我们需要这样做。原因有二：

效率。如果你使用视频的更小、压缩的版本，成本会小得多。
聚焦于重点。AI专家有一个长期的信念，那就是通过压缩数据，只保留关键概念。这样，模型将专注于重点，而不是分析原始视频中的每一个小细节，无论它们是否相关。

接下来是潜在动作模型，事情开始变得有趣了。

一个世界观察者和动态生成器
这个组件将取过去的帧历史和将一个帧转换到下一个帧的动作，并预测下一个帧会是什么。

这样，通过将下一个帧的条件设置为前面的动作，你间接地创建了一个世界模型，基于之前的观察（帧）和动作，预测接下来会发生什么。

这就引出了第三个组件，动态模型。

这个组件，一个自回归变换器（类似于ChatGPT，但是预测图像而不是文本）将使用过去提供的信息（视频分词器和动作模型）来预测未来。

比如，如果之前的图像描述了一个地牢和一个玩家，玩家向右移动，这两个输入会告诉动态模型，下一个帧应该是地牢稍微向右移动，随着你的探索创建世界。

但神灯的意义可能远不止于此…尤其是对于机器人代理领域。

机器人代理的前驱？
或许人类最大的特点，远超今日机器人能力的，就是常识，通常被称为世界模型。

人类基于过去的经验和感官输入，在我们的大脑中构建了一个世界的表示，这告诉我们例如走在路边以避免被车撞，当人们打招呼时回应，或者知道从悬崖跳下去可能不是个好主意。但常识远不止这些高层次的推理动作，我们还理解世界的物理规律，像重力、速度和加速度或运动等。

这些概念对AI来说极其复杂，使得世界模型成为最难解决的问题之一。

但有了神灯，我们可能已经找到了这样模型的前驱，因为神灯能观察它的世界并弄清楚接下来会发生什么，这是机器人想要居住在人类世界中所必需的特征，像1X或Figure AI这样的著名例子。

事实上，谷歌对这种可能性非常乐观，他们用它的RT-1机器人的视频训练了一个神灯，以至于神灯变得能够预测机器人接下来会做什么：

最吸引人的是？

神灯是以完全无监督的方式训练的，意味着它通过简单地观看视频来自行学习派生动作，这些视频完全没有提到它们所展示的动作。

尽管如此，神灯还是能够自己学会它们，这真正证明了神灯未来的进化可能能够做到的事情。

此外，它还为AI开启了使用互联网规模的视频数据，如YouTube视频，来从我们的世界中学习并解锁LLMs开发的新维度的可能性，因为视频比文字能更多地告诉我们关于世界的信息。

AI学习移动和居住在我们世界中的能力，即体现智能的一大飞跃，正在迅速接近。

非常迅速。

新加坡内哥谈技术

关注

17
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。