通过cross convolution networks预测视频

最新推荐文章于 2024-01-17 16:31:50 发布

dwqy11

最新推荐文章于 2024-01-17 16:31:50 发布

阅读量655

点赞数

分类专栏：视频预测文章标签：视频预测计算机视觉人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dwqy11/article/details/78369182

版权

该博客探讨了如何通过交叉卷积网络预测视频，输入为相邻帧，输出为动作表征。网络生成的动作核在解码器中用于重建差异图。多尺度图像编码器捕捉全局和局部动作，光流字段用于描述物体运动，而KL散度衡量模型与真实分布的差异。

摘要由CSDN通过智能技术生成

cross convolution networks：cross convolution layer + network

主要目的在于用cross convolution layer能够分层表达图像中的动作。

主要思路是，将核解码器学习到的核分别应用到由图像编码器学习到的特征图中。

cross convolution layer的提出基础：

Motion can often be decomposed in a layer-wise manner [ Wang and Adelson , 1993 ].

本文中的实现方式：

1.通过图像编码器将图像金字塔输入到multiple特征图中。

2.用不同的卷积和去卷积这些特征图，并使用这些输出综合成一个差异图像（difference image）。

这些网络结构天然地满足分层动作的表示，因为每个特征图都有一个图像层（image layer），（这和网络层不同），并且相应的核描绘该层的动作。换句话说，其实是用卷积核来对动作建模，并以多种尺度运用到特征图中去。

**important**

因为不同的图像有不同的动作（即有不同的卷积核），传统卷积网络的核不能和所有的输入一一对应，因此本文提出了交叉卷积层来解决这个问题。

交叉卷积层不是自己去学习核的权重，而是将核权重（kernel weights）和特征图作为输入，并在一个向前传播中进行卷积。 Finn et al. [ 2016 ], Brabandere et al. [ 2016 ] 中探究了相似的思想，他们将学习到的核用到了输入的图像中，本文中在直接的监督学习下联合学习特征图和核（kernel）。

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。