swift x输入流_谷歌大脑提出基于流的视频预测模型，可产生高质量随机预测结果...

最新推荐文章于 2024-07-28 23:00:00 发布

赵长泰

最新推荐文章于 2024-07-28 23:00:00 发布

阅读量190

点赞数

文章标签： swift x输入流

本文链接：https://blog.csdn.net/weixin_35355431/article/details/112066275

版权

谷歌大脑提出VideoFlow模型，这是一种基于流的生成模型，用于视频预测，能产生高质量随机预测结果，优化数据似然并直接评估性能。VideoFlow在实时预测和不确定性建模上表现优秀，适用于机器人控制等应用。

摘要由CSDN通过智能技术生成

近日，来自谷歌大脑和伊利诺伊大学香槟分校的研究者在 arXiv 上发表论文，提出了一种基于流的视频预测模型 VideoFlow，可以直接优化数据似然，还能够产生高质量的随机预测。
选自arXiv，作者：Manoj Kumar等，机器之心编译，参与：杜伟、路。

计算机硬件能力的飞速发展以及研究者在更深刻见解和更好方法方面所做出的不懈努力，推动机器学习领域从相对冷门上升至主流。该领域的进展已经转化为各类能力的进步，如图像分类（Krizhevsky等人，2012年）、机器翻译（Vaswani等人，2017年）以及超人游戏智能体（Mnih等人，2013年；Silver等人，2017年）等。但是，机器学习技术的运用在很大程度上受限于需要大量监督的情况（如图像分类或机器翻译任务），或者学习智能体需要对环境的高度精确模拟（如游戏智能体）。监督学习的一种不错的替代方法是：使用大型无标注数据集，并结合预测生成模型。复杂的生成模型若想有效地预测未来事件，则必须建构世界的内部表征。例如，一个能够预测未来视频帧的预测生成模型需要建模现实世界中的复杂现象，如物理交互。这为构建充分理解现实世界的模型提供了一种不错的机制，且无需任何标注样本。关于现实世界互动的视频非常丰富且容易获得，大型生成模型可以在包含许多视频序列的大型无标注数据集上训练，以了解现实世界中各种各样的现象。此类模型对后续下游任务中的表征学习非常有用（Mathieu等人，2016年），甚至可直接用在预测未来的应用中进行有效的决策和控制，如机器人学（Finn等人，2016年）。视频预测所面临的一个核心挑战是，未来具备高度不确定性：对当前时段的短序列观察可表示未来的诸多可能。近期已经有大量研究涉及可表征不确定未来的概率模型，但这些模型要么计算成本极其昂贵（如像素级自回归模型），要么无法直接优化数据似然。

这篇论文研究随机预测问题，主要关注条件式视频预测：基于较短序列的以往观察结果合成原始RGB视频帧（Ranzato等人，2014年；Srivastava等人，2015年；Vondrick等人，2015年；Xingjian等人，2015年；Boots等人，2014年）。具体而言，研究者提出了一种新型视频预测模型，它能够提供确切似然，生成各类随机未来，还能精确合成逼真、高质量的视频帧。该方法背后的主要思路是：将基于流的生成模型（Dinh等人，2014和2016年）扩展到条件式视频预测环境中。基于变分自编码器和像素级自回归模型的方法已被用于研究随机预测生成，但基于流的模型受到的关注相对较少。据称，基于流的模型目前仅用于图像等非时态数据和音频序列的生成。条件式视频生成面临着独有的挑战：视频序列的高维度特性使其难以建模为单独的数据点。因此，谷歌大脑的研究者学习了一种潜在动态系统（latent dynamical system）模型，用于预测流模型潜在状态的未来值。这为该系统的潜在状态引入了马尔科夫动力学，替代了标准的无条件先验分布。受到图像生成模型 Glow 的启发，研究者创建了一种基于流的视频预测实用模型架构 VideoFlow。
实证结果表明，在 action-free BAIR 数据集上执行随机视频预测时，VideoFlow所取得的效果与当前最优结果不相上下，其定量结果也能够与最佳的VAE模型相媲美。VideoFlow还可以输出不错的定性结果，避免了很多使用像素级均方误差训练的模型输出结果中常见的伪影（如模糊预测），并且也不会面临与训练对抗模型相关的挑战。与基于像素级自回归预测的模型相比，VideoFlow在测试阶段的图像合成速度有很大提升，这使得VideoFlow对于机器人控制等需要实时预测的应用更加实用。最后，VideoFlow能够直接优化训练视频的似然，且不依赖变分下界，因而我们可以从似然值的角度直接评估其性能。

论文：VideoFlow: A Flow-Based Generative Model for Video

论文链接：https://arxiv.org/pdf/1903.01434.pdf

摘要：原则上，能够建模和预测未来事件序列的生成模型可以学习捕获现实世界中的复杂现象，如物理交互。尤其是，学习视频预测模型可以提供一个特别不错的机制，以充分理解物质世界：现实交互的视频非常丰富且容易获得。能够预测未来视频帧的模型不仅可以捕获世界的有用表征，还能够独立处理基于模型的机器人控制等问题。但是，视频预测所面临的的核心挑战是，未来具有高度不确定性：之前观察事件序列可表示未来的诸多可能。近期已经有大量研究涉及可表征不确定未来的概率模型，但这些模型要么计算成本极其高昂（如像素级自回归模型），要么无法直接优化数据似然（data likelihood）。谷歌大脑的这项新研究提出基于归一化流的视频预测模型，该模型不仅可以直接优化数据似然，而且能够产生高质量的随机预测。据称，该研究首次提出了基于归一化流的多帧视频预测。研究者介绍了一种建模潜在空间动态的方法，并展示该基于流的生成模型为视频生成建模提供了一种可行且有竞争力的方法。

提出的架构

该研究提出视频生成流，扩展了近期提出的 Glow（Kingma & Dhariwal，2018年）和RealNVP（Dinh等人，2016年）架构。

图 1：流模型通过多个层次的随机变量采用多尺度架构。在不同的层次上，输入流经K个流并输出随机变量，然后进入下一组流。最后一组流的输出为最终的随机变量。

图2：每一个时间步 x_t 的输入被编码成多层次的随机变量

。研究者通过序列进程对这些随机变量建模

定量实验

研究者在Stochastic Movement Dataset (Babaeizadeh et al., 2017) 和 BAIR robot pushing dataset (Ebert et al., 2017) 上评估了VideoFlow的性能，还对模型中的关键组件进行了模型简化测试，以量化这些组件的效果。最后，研究者对VideoFlow与当前最优的随机视频生成基线模型进行定量对比。VideoFlow模型的超参数见该论文补充材料。

表 1：研究者报告了在10个目标帧和3个条件帧（conditioning frame）上的平均每像素比特数（bits-per-pixel，BPP），所用数据集为BAIR action-free dataset。

图 4：B：基线模型，A：时间跳过连接（Temporal Skip Connection），C：扩张卷积+GATU，D：扩张卷积+时间跳过连接，E：扩张卷积+时间跳过连接+GATU。研究者为VideoFlow模型的不同简化模型测试绘制了在BAIR action-free 数据集上的holdout BPP。