PredNet阅读笔记——从视频预测的角度学习视频表征

最新推荐文章于 2024-05-17 09:58:57 发布

一脸懵逼的盆子

最新推荐文章于 2024-05-17 09:58:57 发布

阅读量1w

点赞数 14

分类专栏：视频预测文章标签： lstm PredNet 视频预测 cnn rnn

本文链接：https://blog.csdn.net/zhangsipppcsdn/article/details/69907598

版权

本文是关于PredNet的阅读笔记，这是一种基于CNN+LSTM的视频预测模型，旨在通过预测误差学习视频表征。尽管在视频预测任务上表现有限，但PredNet在学习视频动态特征方面表现出色，适用于物体识别和参数学习。实验显示，PredNet提取的特征在参数回归和图像分类任务上优于其他方法。

摘要由CSDN通过智能技术生成

看到有网站未经允许转载了，无奈加个原文地址：http://blog.csdn.net/zhangsipppcsdn/article/details/69907598

　　ICLR 2017论文《Deep Predicitve Coding Networks for Video prediction and unsupervised Learning》阅读笔记，作者是哈佛大学的William Lotter, Gabriel Kreiman & David Cox。

github:https://github.com/coxlab/prednet

　　这篇论文采用的也是CNN+LSTM的思路做视频预测，但是对网络结构做了很大调整（如下图），将图像预测误差在网络中前向传递，可以更好地学习到视频表征。
model
　　文章是从视频预测的角度设计网络PredNet：为了达到预测视频的目的，需要学习视频的特征表示。然而实验证明，PredNet在视频预测任务表现一般，预测时间短且不够清晰；但在学习视频表征方面表现突出，可以提取物体动态特征，将这些特征用于分类器、参数估算等任务，相比于从静态图像中提取的特征，物体识别准确度会提高。

背景

　　现有用于物体识别的方法是有监督的，效果非常好。有监督训练需要大量标注图像，使分类器可以在不同角度、背景、光照等条件下识别物体，但这与我们人类对物体的认知习惯不同，我们只需要一个或少数几个角度的物体图像就足够识别出物体。由于大量标注图像难以获取，限制了有监督方法的识别能力，因此需要尝试无监督学习的方法获得物体的特征表示，用于物体识别。
　　计算机视觉利用静态图像为物体建模，但现实世界中的物体或观察者总是在运动的，物体运动的时序信息也组成了物体特征的一部分，应当构建物体的动态模型。一些研究也尝试过将物体随时间的变化特点加入物体的特征表示，但是识别结果不理想，难以和一般基于图像的有监督方法匹敌。
　　这里，作者从视频预测的角度去学习物体的时间变化特征。因为想要预测一个物体的变化，本身就需要建立物体内在模型和它的运动模型。人脑的预测是基于不断获取的新图像，不断校正预测结果的。作者据此提出的prednet就设计了这样一个结构，根据产生的预测图像与实际下一帧图像的误差及各层特征图像的误差，去训练网络预测能力。

模型

model

Prednet模型如上图。整个网络是上图左半部分在时间、网络层两个维度上的堆叠，右半部分是各step每层网络（称为一个模块）的具体实现。
每个模块由四个单元组成：
- $A_l$ ：输入卷积层，对于第一层，是目标图像；对于更高层，是前一层预测误差E的卷积+relu。
- $R_l$ ：卷积LSTM层。
- $\hat{A}_l$ ：预测层，对R单元卷积+relu得到。
- $E_l$ ：误差表示层， $f{(A_l-\hat{A}_l)}$ 。
- （为什么csdn写出来的公式后面都带一个竖线？)
具体地：
- $E_l$ 单元：由于采用激活函数Relu，

最低0.47元/天解锁文章

一脸懵逼的盆子

关注

14
点赞
踩
29

收藏

觉得还不错? 一键收藏
24
评论
PredNet阅读笔记——从视频预测的角度学习视频表征

看到有网站未经允许转载了，无奈加个原文地址：http://blog.csdn.net/zhangsipppcsdn/article/details/69907598　　ICLR 2017论文《Deep Predicitve Coding Networks for Video prediction and unsupervised Learning》阅读笔记，作者是哈佛大学的William Lotte
复制链接

扫一扫

专栏目录