视频预测的相关论文

本文探讨2018年NeurIPS大会上关于视频预测的研究,论文提出将视频表示分解为内容和姿势两个隐变量,降低预测复杂度。同时,文中提及一项综合调查研究,讨论了视频预测与人脑预测机制的相似性,引用预测编码理论来解释如何通过预测未来图像并校正模型来适应变化环境。
摘要由CSDN通过智能技术生成

文章目录

2018

《Learning to Decompose and Disentangle Representations for Video Prediction》 NeurIPS 2018. Li Fei-Fei组
将视频问题分解成多个子问题使之更容易解决,由输入编码得到的一个隐变量解纠缠(Disentangle)为两个隐变量:始终不变的content vector和其他会变的pose vector【这个假设感觉很奇怪,会有很大的局限性,图像中不变的是内容,剩下的改变的就是位置属性了?】。由于在Moving MNIST数据集是两个数字移动的视频,可以说每一帧content vector都是不变的,于是只要预测pose vector就行好,从而相比于像素级别的预测,这种一个隐变量的预测是降维了的。
子问题分解公式化
《A Comprehensive Survey on Deep Future Frame Video Prediction》 Master Thesis
在这里插入图片描述
里面这一段故事写的很好,解释video prediction和人脑生理原理的关系。它讲了人类的环境是无监督的,但人还是能够理解眼前的环境,对新的环境适应很快,光照、遮挡等其他对机器视觉很想很大的因素都对人的视觉没有那么大的影响。神经科学理论中有提出过大脑会对外部世界进行内部建模。因此提出了Predictive Coding,简单来说就是预测未来的图像,等获得相应时间点对应的真实的图像,两者进行比较,从而学习修正预测模型。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值