cross convolution networks:cross convolution layer + network
主要目的在于用cross convolution layer能够分层表达图像中的动作。
主要思路是,将核解码器学习到的
核分别应用到由图像编码器学习到的
特征图中。
cross convolution layer的提出基础:
Motion can often be decomposed in a layer-wise manner [
Wang and Adelson
,
1993
].
本文中的实现方式:
1.通过图像编码器将图像金字塔输入到multiple特征图中。
2.用不同的卷积和去卷积这些特征图,并使用这些输出综合成一个差异图像(difference image)。
这些网络结构天然地满足分层动作的表示,因为每个特征图都有一个图像层(image layer),(这和网络层不同),并且相应的核描绘该层的动作。换句话说,其实是用卷积核来对动作建模,并以多种尺度运用到特征图中去。
**important**
因为不同的图像有不同的动作(即有不同的卷积核),传统卷积网络的核不能和所有的输入一一对应,因此本文提出了 交叉卷积层 来解决这个问题。
交叉卷积层 不是自己去学习核的权重,而是将 核权重(kernel weights) 和 特征图 作为输入,并在
一个向前传播中进行卷积。
Finn et al.
[
2016
],
Brabandere et al.
[
2016
] 中探究了相似的思想,他们将学习到的核用到了输入的图像中,本文中在直接的监督学习下联合学习 特征图 和 核(kernel)。