video pixel networks阅读笔记

最新推荐文章于 2024-05-20 22:31:12 发布

dwqy11

最新推荐文章于 2024-05-20 22:31:12 发布

阅读量1.3k

点赞数

分类专栏：视频预测文章标签：人工智能深度学习视频预测计算机视觉 vpn

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dwqy11/article/details/78369226

版权

本文为Video Pixel Networks的阅读笔记，介绍了其与LSTM、Highway Networks和Grid LSTM的差异。VPNs通过3x3核获取权重，其内存和隐藏状态无明显区分，并且不设门控机制，直接应用非线性sigmoid处理输入。

摘要由CSDN通过智能技术生成

一、模型结构

本文定义了一个由VPN(video pixel networks)来执行的概率模型。

表示第t帧（i, j）位置上c颜色通道（{R, G, B}）的像素值。通过链式法则将视频似然函数p（x）因式分解，表示为一个条件概率的乘积，在没有独立性假设时也可以用一种容易处理的方式进行建模。

确定因子分析中的变量顺序遵从两个准则。第一个是根据数据的特性和对数据的使用来确定；预测视频帧的顺序就根据这种时间的顺序。第二个是以能够高效计算为目的来确定顺序；比如，预测像素时从左上角到右下角。另外，对颜色的预测顺序为R，G，B。

二、网络结构

VPN模型直接对四个维度（t,i,j,c）进行建模。由上图可知，例如对G中第t帧的像素x进行预测时，需要参考：

（1）t帧之前所有帧的所有像素；

（2）第t帧中已经预测得到的所有3种颜色的像素；

（3）第t帧中已经生成的R中的像素x。

（1）Resolution Preserving CNN Encoders

作用：用来计算一个video tensor（即 X(t,i,j,c））的时

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。