文章目录
2018
《Learning to Decompose and Disentangle Representations for Video Prediction》 NeurIPS 2018. Li Fei-Fei组
将视频问题分解成多个子问题使之更容易解决,由输入编码得到的一个隐变量解纠缠(Disentangle)为两个隐变量:始终不变的content vector和其他会变的pose vector【这个假设感觉很奇怪,会有很大的局限性,图像中不变的是内容,剩下的改变的就是位置属性了?】。由于在Moving MNIST数据集是两个数字移动的视频,可以说每一帧content vector都是不变的,于是只要预测pose vector就行好,从而相比于像素级别的预测,这种一个隐变量的预测是降维了的。
《A Comprehensive Survey on Deep Future Frame Video Prediction》 Master Thesis
里面这一段故事写的很好,解释video prediction和人脑生理原理的关系。它讲了人类的环境是无监督的,但人还是能够理解眼前的环境,对新的环境适应很快,光照、遮挡等其他对机器视觉很想很大的因素都对人的视觉没有那么大的影响。神经科学理论中有提出过大脑会对外部世界进行内部建模。因此提出了Predictive Coding,简单来说就是预测未来的图像,等获得相应时间点对应的真实的图像,两者进行比较,从而学习修正预测模型。