- 文章转自微信公众号「机器学习炼丹术」
- 作者:炼丹兄(已授权)
- 作者联系方式:微信cyx645016617(欢迎交流 共同进步)
- 论文名称:“FlowNet: Learning Optical Flow with Convolutional Networks”
- 论文链接:http://xxx.itp.ac.cn/abs/1504.06852
0 综述
论文的主要贡献在我看来有两个:
- 提出了flownet结构,也就是flownet-v1(现在已经更新到flownet-v2版本),flownet-v1中包含两个版本,一个是flownet-v1S(simple),另一个是flownet-v1C(correlation)。
- 提出了著名的Flying chairs数据集,飞翔的椅子哈哈,做光流的应该都知道这个有趣的数据集。
1 flownetsimple
1.1 特征提取模块
已知卷积神经网络在具有足够的标记数据的情况下非常擅长学习输入输出关系。因此,采用端到端的学习方法来预测光流:
给定一个由图像对和光流组成的数据集,我们训练网络以直接从图像中预测x-y的光流场。但是,为此目的,好的架构是什么?
一个简单的选择是将两个输入图像堆叠在一起,并通过一个相当通用的网络将其输入,从而使网络可以自行决定如何处理图像对以提取运动信息。这种仅包含卷积层的架构为“FlowNetSimple”:
炼丹兄简单讲网络结构:
- 输入图片是三通道的,把两张图片concat起来,变成6通道的图片;
- 之后就是常规的:卷积卷积卷积,中间会混杂stride=2的下采样;
- 然后有几个卷积层输出的特征图会直连到refinement部分(图中右边绿色沙漏型图块),这些特征融合,让图片恢复较大的尺寸;
- 原始模型的输入图片是384x512,但是最后输出的光流场大小为136x320,这一点需要注意一下。
1.2 refinement
我们来看refinement部分,其实这个部分跟Unet也有些类似,但是又有独特的光流模型的特性。
- 可以看到,基本上每一块的特征图,都包含三个部分:
- 从前一个小尺寸的特征图deconv得到的特征;
- 从前一个小尺寸的特征图转换成小尺寸的光流场然后deconv得到的特征;
- 在特征提取过程中,与之尺寸相匹配的特征;
- 上面的三个特征concat之后,就会变成下一个尺寸的输入特征块,不断循环,让特征的尺寸不断放大;
1.3 pytorch
lass FlowNetS(nn.Module):
expansion = 1
def __init__(self,batchNorm=True):
super(FlowNetS,self).__init__()
self.batchNorm = batchNorm
self.conv1 = conv(self.batchNorm, 6, 64, kernel_size=7, stride=2)
self.conv2 = conv(self.batchNorm, 64, 128, kernel_size=5, stride=2)
self.conv3 = conv(self.batchNorm, 128, 256, kernel_size=5, stride=2)
self.conv3_1 = conv(self.batchNorm, 256, 256)
self.conv4 = conv(self.batchNorm, 256, 512, stride=2)
self.conv4_1 = conv(self.batchNorm, 512, 512)
self.conv5 = conv(self.batchNorm, 512, 512, stride=2)
self.conv5_1 = conv(self.batchNorm, 512, 512)
self.conv6 = conv(self.batchNorm, 512, 1024, stride=2)
self.conv6_1 = conv(self.batchNorm,1024, 1024)
self.deconv5 = deconv(1024,512)
self.deconv4 = deconv(1026,256)
self.deconv3 = deconv(770,128)
self.deconv2 = deconv(386,64)
self.predict_flow6 = predict_flow(1024)
self.predict_flow5 = predict_flow(1026)
self.predict_flow4 = predict_flow(770)
self.predict_flow3 = predict_flow(386)
self.predict_flow2 = predict_flow(194)
self.upsampled_flow6_to_5 = nn.ConvTranspose2d(2, 2, 4, 2, 1, bias=False)
self.upsampled_flow5_to_4 = nn.ConvTranspose2d(2, 2, 4, 2, 1, bias=False)
self.upsampled_flow4_to_3 = nn.ConvTranspose2d(2, 2,