用于未来帧预测的对偶运动生成对抗网络

                                  用于未来帧预测的对偶生成对抗网络

在自动驾驶领域,准确的预测下一个行驶场景对于安全行驶非常的关键,到目前为止已经有各种方法进行了尝试。用于监督学习的深度学习框架取的了很大的成果,但是用于通用、可扩展的视觉任务的无监督视频表征学习仍然没有得到解决。

而因为自然场景复杂的外观和运动动态,视频的未来帧预测成为一个重要的挑战。视频的未来帧预测也就是要求模型能够理解像素层面的外观和运动动态,这样才能够让之前帧的像素值流入到新的帧中。但是现有的生成对抗网络预测未来帧的方法都是直接合成未来帧的RGB像素值,无法建模固有的像素方面的运动轨迹,导致预测结果的模糊。也有通过直接复制之前帧的像素场景来缓解这一问题,但因为中间流不准确,存在一些明显的人工痕迹。


在这篇论文中提出了一种对偶运动生成对抗网络的框架,运用对偶对抗学习机制来学习明确的将未来帧的合成像素值和像素的运动轨迹保持连贯。具体来说,就是通过一个共享的概率运动编码器来同时解决原始的未来帧预测和未来流预测问题,受GAN思想的启发,在未来帧和未来流生成器以及帧和流判别器之间建立了一种对偶对抗学习机制,使得结果难以区分,通过彼此的互相审查,这种机制将对未来帧像素的想象和流预测结合在了一起。


 这种框架主要由3个可微的结构组成:概率运动编码器——捕获像素不同位置的运动不确定性以及产生隐含表征z;未来帧生成器GI预测未来帧,帧判别器D评估未来帧的逼真度,流判别器D会根据之前帧和预测的未来帧之间的估计的流而评估流的逼真度;未来流生成器GF预测未来流,流判别器D评估流的逼真度,帧判别器D评估根据预测的未来流对之前的帧变形得到的变形帧的逼真度。


对偶运动GAN结构如图1:

1、视频序列I_1...I_t输入概率运动编码器E,得到隐含表征z,作为两个生成器的输入;

2、两个生成器分别对z进行解码,合成未来帧和未来流;

3、帧和流判别器分别区分真实的和合成的帧或流;

4、流估计器Q_{t\to F}根据之前的帧I_t和合成的未来帧来估计流F_{t+1},在流判别器中判别;流变性层Q_{F\to I}根据合成的未来流对之前的帧I_t进行变性得到变性帧I_{t+1},在帧判别器中判别。


对偶运动生成器和判别器的网络结构图如图2和图3,为了简介,图中略去了池化层、批规范化层、ReLU层。在图2中每个视频序列中的每一帧都会被循环的送入E。注意z从一个高斯分布中进行抽样,高斯分布的均值和方差分别来自Conv-LSTM。


                                                                                 图1


                                                                          图2 生成器


图3 判别器


损失函数:

对抗对偶目标函数:

其中λ用来平衡VAE损失和两个对偶GAN损失。

KL散度用来惩罚来自先验分布pz=Ν(z|0,I)隐藏code的分布的偏差。


 

 


实验结果包括视频预测任务(下一帧、多帧预测)、ablation studies,通过在流预测、流估计和无监督表征学习上的扩展实验验证了模型的泛化能力。

1、表 1:经过 KITTI 数据集的训练之后,在 Caltech 和 YouTube 剪辑上的视频帧预测表现(MSE 和 SSIM)

2、表 2:在 UCF-101 和 THUMOS-15 上的视频帧预测表现(PSNR 和 SSIM)

3、图 4:在 YouTube 剪辑上的定性结果。为了更好地比较,我们用红色框和蓝色框突出展示了两辆以相反方向前进的车辆的预测区域

4、图 5:在来自 Caltech 数据集的车载摄像头视频上,与 Prednet [18] 的下一帧预测结果的定性比较

5、图 6:在 Caltech 数据集上的多帧预测表现的比较

6、 图 7:我们的模型在 Caltech 序列上的 5 个时间步骤的多帧预测结果

7、图 8:我们的模型在来自 KITTI 数据集的两个序列上得到的一些未来帧预测和未来流预测示例(流预测和流估计)

8、表 3:在 KITTI 数据集上的流估计和预测的终点误差。这里值更低表示表现更好。

9、表 4:在 UCF-101 上的动作识别的分类准确度(无监督表征学习)

总结:本篇论文提出了一种对偶运动GAN,它运用对偶对抗机制同时解决了原始的未来帧预测问题和未来流预测问题。概率运动编码器捕获运动不确定性,对偶对抗生成器和判别器互相反馈信号,,隐式地互相连贯。未来工作:计划隐式地建模多代理依赖关系,以便能够处理具有复杂运动交互的真实世界的视频。

参考文献:https://arXiv:1708.00284v2 [cs.CV] 3 Aug 2017  Dual Motion GAN for Future-Flow Embedded Video Prediction

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值