- 只熟悉流程跑通代码不重要,重要的是理解网络的思想。
- GC-Net提出了3D-CNN编解码的形式做’cost volum ’ 后处理的过程,PSM-Net 加入图像金字塔的模块结合3D-CNN 输出图像视差图。
一. 特征提取模块
- 作者用 3层 33的小卷积核代替 77 的大卷积核,将图像降维1/2size. 虽然拥有同样大小的感受野,但深层的小 conv filter 显然有更少的参数,降低了计算成本。
def convbn(in_planes, out_planes, kernel_size, stride, pad, dilation):
return nn.Sequential(nn.Conv2d(in_planes, out_planes, kernel_size=kernel_size, stride=stride, padding=dilation if dilation > 1 else pad, dilation = dilation, bias=False),
nn.BatchNorm2d(out_planes))
- 第一层 stride=2是为了降维输入图像 size,第二、三层是为了扩大感受野。
self.firstconv = nn.Sequential(convbn(3, 32, 3, 2, 1, 1),
nn.ReLU(inplace=True),
convbn(32, 32, 3, 1, 1, 1),
nn.ReLU(inplace=True),
convbn(32, 32, 3, 1, 1, 1),
nn.ReLU(inplace=True))
conv1_x
、conv2_x
、conv3_x
、conv4_x
是提取二值特征的残差层。conv3_x
、conv4_x
使用了空洞卷积增大感受野,输出特征图的size是原图的1/4.
- 是不是又看到了大家熟悉的_make_layer ,别慌!一条条来!
self.layer1 = self._make_layer(BasicBlock, 32, 3, 1,1,1)
self.layer2 = self._make_layer(BasicBlock, 64, 16, 2,1,1)
self.layer3 = self._make_layer(BasicBlock, 128, 3, 1,1,1)
self.layer4 = self._make_layer(BasicBlock, 128, 3, 1,1,2)
def _make_layer(self, block, planes, blocks, stride, pad, dilation):
downsample = None
if stride != 1 or self.inplanes != planes * block.expansion:
downsample = nn.Sequential(
nn.Conv2d(self.inplanes, planes * block.expansion,
kernel_size=1, stride=stride, bias=False),
nn.BatchNorm2d(planes * block.expansion),)
layers = []
layers.append(block(self.inplanes, planes, stride, downsample, pad, dilation))
self.inplanes = planes * block.expansion
for i in range(1, blocks):
layers.append(block(self.inplanes, planes,1,None,pad,dilation))
return nn.Sequential(*layers)
conv1_x
残差模块由3个 3332的卷积层构成
self.layer1 = self._make_layer(BasicBlock, 32, 3, 1,1,1)
conv2_x
残差模块由16个 3364的卷积层构成,加深二值特征的深度。32->64.stride=2 使 1/2feature size ->1/4 feature size.
self.layer2 = self._make_layer(BasicBlock, 64, 16, 2,1,1)
conv3_x
、conv4_x
文中的描述是这两层使用了空洞卷积扩大感受野。
注意:我看代码conv3_x
的dilation=1,以为是作者笔误,这里不是的,空洞卷积要连续使用,就是说dilation=n要连接 dilation=n-1…dilation=1,才能发挥不做pooling损失信息的情况下,加大了感受野,让每个卷积输出都包含较大范围的信息,且不改变feature_size的效果