预测视频Transformer：提高人工智能预测视频下一个内容的能力

本文链接：https://blog.csdn.net/CSS360/article/details/121624413

研究人员开发了预测视频转换器(AVT)，一个基于Transformer架构的视频动作预测模型，擅长理解长期依赖关系，从而更好地预测人类行为。AVT在多个基准测试中表现出色，尤其适用于AR助手等应用场景，能提前预警潜在错误或提供下一步指导。其因果解码器架构允许预测更长时间的未来，对长期规划任务有潜力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

背景
对于从自动驾驶汽车到增强现实的应用，人工智能系统能够预测人们未来的行为非常重要。当有人在建造宜家梳妆台时，他们可能会发现自己想知道下一步是安装支腿还是抽屉。根据到目前为止所遵循的步骤，朋友可以帮助建议要添加的正确部分。但这种类型的预测对于 AI 来说是一项具有挑战性的任务，它既需要预测未来活动的多模态分布，又需要对过去行动的进展进行建模。
为了应对这一重要挑战，我们利用 Transformer 架构的最新发展，尤其是在自然语言处理和图像建模方面，构建了预测视频转换器 (AVT)，这是一种基于端到端注意力的视频动作预测模型。与之前的方法相比，它更擅长理解长期依赖关系，比如某人过去的烹饪步骤如何表明他们接下来要做什么。
AVT 对 AR“行动教练”或 AI 助手等应用程序特别有用，通过提示某人他们可能会在完成任务时犯错误或提前做出反应并为下一步提供有用的提示在一项任务中。例如，AVT 可以根据某人之前与平底锅的互动来警告某人他们将要拿起的平底锅很热。
AVT 可以在这些和其他应用程序中快速提高动作预测性能，该模型在四个流行的基准测试中优于现有的最先进架构就证明了这一点。

实现过程 在这里插入图片描述

大多数先前的动作预期方法都在对连续大范围动作进行建模。例如，预测某人制作煎蛋的下一个动作——切洋葱或加热平底锅——取决于他们已经执行的动作顺序。
但是 AVT 是基于注意力的，所以它可以并行处理一个完整的序列。相比之下，基于循环神经网络的方法通常会忘记过去，因为它们需要顺序处理。 AVT 还具有损失函数，可以鼓励模型捕获视频的顺序性质，否则这些特性会被基于注意力的架构（例如非本地网络）丢失。
AVT 由两部分组成：对视频帧进行操作的基于注意力的主干 (AVT-b) 和对主干提取的特征进行操作的基于注意力的头部架构 (AVT-h)。我们最好的行动预期来自于端到端的完整架构训练，但 AVT-h 也与标准视频主干兼容，如 3D 卷积网络。这很重要，因为学习更好的视频主干是一个活跃的研究领域，我们希望 AVT 对最新最好的视频主干有用，例如多尺度视觉转换器。
AVT-b 主干基于 Vision Transformer (VIT) 架构。它将帧分割成不重叠的补丁，将它们嵌入前馈网络，附加一个特殊的分类标记，并应用多层多头自注意力。然后我们在帧之间共享权重，并使用与头部分类标记相对应的特征。
头部架构采用每帧特征，并应用另一种具有因果关系的 Transformer 架构。这意味着它仅从当前帧和前一帧评估特征。这反过来又允许模型在生成任何单个帧的表示时仅依赖过去的特征。这对预测至关重要。
例如，在上面的视频中，模型首先对打开水龙头的视觉特征进行编码，然后移动到每个正在清洗的番茄，最后预测下一个动作将是关闭水龙头。
我们训练模型使用三个损失来预测未来的动作和特征。首先，我们对视频剪辑的最后一帧中的特征进行分类，以预测标记的未来动作；其次，我们将中间帧特征回归到后续帧的特征，从而训练模型预测接下来会发生什么；第三，我们训练模型对中间动作进行分类。我们已经证明，通过联合优化三个损失，我们的模型比仅使用双向注意力训练的模型预测未来动作的效果好 10% 到 30%。这些额外的损失使 AVT 更适合远程推理，因为它们为模型提供了额外的监督。它还表明，通过合并越来越长的上下文，它的性能得到了提高。
在这里插入图片描述
重要性
人们每天根据他们对周围世界的理解做出无数决定，这不仅仅是一组静态的、固定的输入，而是一系列相互关联的事件。 AI 模型提供了巨大的希望，可以帮助人们完成许多任务，但为了最大限度地发挥这种潜力，他们也需要这种预测能力。 AVT 是朝这个方向迈出的重要一步。
因为它建立在因果解码器架构之上，所以 AVT 可以轻松地自回归推出以预测更长时间的未来，不仅可以预测下一个动作，还可以预测用户可能执行的几个连续动作。这可能有一天被证明对长期规划任务有用，例如 AR 眼镜观察佩戴它们的人正在更换漏气的轮胎。该系统可以预测该任务所需的一系列步骤，并提示佩戴者选择他们需要的特定工具，甚至是未来几步，当他们走到他们的工具棚去取它们时。
展望未来，我们相信 AVT 可能有助于超出预期的任务，例如自我监督学习、动作模式和边界的发现，甚至对于需要对动作的时间顺序进行建模的任务中的一般动作识别。这些是我们很高兴在未来的工作中探索的一些领域。