用于未来帧预测的对偶运动生成对抗网络

最新推荐文章于 2024-08-24 08:35:44 发布

XMoyas

最新推荐文章于 2024-08-24 08:35:44 发布

阅读量2.1k

点赞数

分类专栏：生成对抗网络文章标签： GAN 未来帧预测未来流预测对偶运动GAN

生成对抗网络专栏收录该内容

8 篇文章 0 订阅

订阅专栏

用于未来帧预测的对偶生成对抗网络

在自动驾驶领域，准确的预测下一个行驶场景对于安全行驶非常的关键，到目前为止已经有各种方法进行了尝试。用于监督学习的深度学习框架取的了很大的成果，但是用于通用、可扩展的视觉任务的无监督视频表征学习仍然没有得到解决。

而因为自然场景复杂的外观和运动动态，视频的未来帧预测成为一个重要的挑战。视频的未来帧预测也就是要求模型能够理解像素层面的外观和运动动态，这样才能够让之前帧的像素值流入到新的帧中。但是现有的生成对抗网络预测未来帧的方法都是直接合成未来帧的RGB像素值，无法建模固有的像素方面的运动轨迹，导致预测结果的模糊。也有通过直接复制之前帧的像素场景来缓解这一问题，但因为中间流不准确，存在一些明显的人工痕迹。

在这篇论文中提出了一种对偶运动生成对抗网络的框架，运用对偶对抗学习机制来学习明确的将未来帧的合成像素值和像素的运动轨迹保持连贯。具体来说，就是通过一个共享的概率运动编码器来同时解决原始的未来帧预测和未来流预测问题，受GAN思想的启发，在未来帧和未来流生成器以及帧和流判别器之间建立了一种对偶对抗学习机制，使得结果难以区分，通过彼此的互相审查，这种机制将对未来帧像素的想象和流预测结合在了一起。

这种框架主要由3个可微的结构组成：概率运动编码器——捕获像素不同位置的运动不确定性以及产生隐含表征z；未来帧生成器GI预测未来帧，帧判别器D评估未来帧的逼真度，流判别器D会根据之前帧和预测的未来帧之间的估计的流而评估流的逼真度；未来流生成器GF预测未来流，流判别器D评估流的逼真度，帧判别器D评估根据预测的未来流对之前的帧变形得到的变形帧的逼真度。

对偶运动GAN结构如图1：

1、视频序列 $I_1...I_t$ 输入概率运动编码器E，得到隐含表征z，作为两个生成器的输入；