通过cross convolution networks预测视频

该博客探讨了如何通过交叉卷积网络预测视频,输入为相邻帧,输出为动作表征。网络生成的动作核在解码器中用于重建差异图。多尺度图像编码器捕捉全局和局部动作,光流字段用于描述物体运动,而KL散度衡量模型与真实分布的差异。
摘要由CSDN通过智能技术生成
cross convolution networks:cross convolution layer + network 
 
主要目的在于用cross convolution layer能够分层表达图像中的动作。
主要思路是,将核解码器学习到的 分别应用到由图像编码器学习到的 特征图中。

cross convolution layer的提出基础:
  Motion can often be decomposed in a layer-wise manner [ Wang and Adelson , 1993 ].
                                       
本文中的实现方式:
1.通过图像编码器将图像金字塔输入到multiple特征图中。
                                                                  
2.用不同的卷积和去卷积这些特征图,并使用这些输出综合成一个差异图像(difference image)。
                                      
这些网络结构天然地满足分层动作的表示,因为每个特征图都有一个图像层(image layer),(这和网络层不同),并且相应的核描绘该层的动作。换句话说,其实是用卷积核来对动作建模,并以多种尺度运用到特征图中去。

**important**
因为不同的图像有不同的动作(即有不同的卷积核),传统卷积网络的核不能和所有的输入一一对应,因此本文提出了  交叉卷积层  来解决这个问题。 
交叉卷积层 不是自己去学习核的权重,而是将  核权重(kernel weights) 和 特征图  作为输入,并在 一个向前传播中进行卷积。 Finn et al. [ 2016 ], Brabandere et al. [ 2016 ]  中探究了相似的思想,他们将学习到的核用到了输入的图像中,本文中在直接的监督学习下联合学习 特征图 和  核(kernel)。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值