立体匹配 -- PSM-Net 网络模型代码剖析

最新推荐文章于 2022-10-16 16:30:02 发布

VIP文章三维视觉工作室

最新推荐文章于 2022-10-16 16:30:02 发布

阅读量4.2k

点赞数 20

分类专栏： PSWNet 立体匹配文章标签：深度学习卷积神经网络计算机视觉

本文链接：https://blog.csdn.net/weixin_41405284/article/details/109412220

版权

只熟悉流程跑通代码不重要，重要的是理解网络的思想。
GC-Net提出了3D-CNN编解码的形式做’cost volum ’ 后处理的过程，PSM-Net 加入图像金字塔的模块结合3D-CNN 输出图像视差图。

一. 特征提取模块

作者用 3层 33的小卷积核代替 77 的大卷积核，将图像降维1/2size. 虽然拥有同样大小的感受野，但深层的小 conv filter 显然有更少的参数，降低了计算成本。

def convbn(in_planes, out_planes, kernel_size, stride, pad, dilation):

    return nn.Sequential(nn.Conv2d(in_planes, out_planes, kernel_size=kernel_size, stride=stride, padding=dilation if dilation > 1 else pad, dilation = dilation, bias=False),
                         nn.BatchNorm2d(out_planes))

第一层 stride=2是为了降维输入图像 size,第二、三层是为了扩大感受野。

  self.firstconv = nn.Sequential(convbn(3, 32, 3, 2, 1, 1),
                                       nn.ReLU(inplace=True),
                                       convbn(32, 32, 3, 1, 1, 1),
                                       nn.ReLU(inplace=True),
                                       convbn(32, 32, 3, 1, 1, 1),
                                       nn.ReLU(inplace=True))

conv1_x、conv2_x、conv3_x、conv4_x是提取二值特征的残差层。conv3_x、conv4_x使用了空洞卷积增大感受野，输出特征图的size是原图的1/4.
是不是又看到了大家熟悉的_make_layer ,别慌！一条条来！


        self.layer1 = self._make_layer(BasicBlock, 32, 3, 1,1,1)
        self.layer2 = self._make_layer(BasicBlock, 64, 16, 2,1,1) 
        self.layer3 = self._make_layer(BasicBlock, 128, 3, 1,1,1)
        self.layer4 = self._make_layer(BasicBlock, 128, 3, 1,1,2)

 def _make_layer(self, block, planes, blocks, stride, pad, dilation):
        downsample = None
        if stride != 1 or self.inplanes != planes * block.expansion:
           downsample = nn.Sequential(
                nn.Conv2d(self.inplanes, planes * block.expansion,
                          kernel_size=1, stride=stride, bias=False),
                nn.BatchNorm2d(planes * block.expansion),)

        layers = []
        layers.append(block(self.inplanes, planes, stride, downsample, pad, dilation))
        self.inplanes = planes * block.expansion
        for i in range(1, blocks):
            layers.append(block(self.inplanes, planes,1,None,pad,dilation))

        return nn.Sequential(*layers)

conv1_x 残差模块由3个 3332的卷积层构成

 self.layer1 = self._make_layer(BasicBlock, 32, 3, 1,1,1)

conv2_x 残差模块由16个 3364的卷积层构成，加深二值特征的深度。32->64.stride=2 使 1/2feature size ->1/4 feature size.

self.layer2 = self._make_layer(BasicBlock, 64, 16, 2,1,1)

conv3_x、conv4_x 文中的描述是这两层使用了空洞卷积扩大感受野。
注意:我看代码conv3_x的dilation=1，以为是作者笔误，这里不是的，空洞卷积要连续使用，就是说dilation=n要连接 dilation=n-1…dilation=1,才能发挥不做pooling损失信息的情况下，加大了感受野，让每个卷积输出都包含较大范围的信息，且不改变feature_size的效果

最低0.47元/天解锁文章

三维视觉工作室

关注

20
点赞
踩
70

收藏

觉得还不错? 一键收藏
11
评论
立体匹配 -- PSM-Net 网络模型代码剖析

只熟悉流程跑通代码不重要，重要的是理解网络的思想。GC-Net提出了3D-CNN编解码的形式做’cost volum ’ 后处理的过程，PSM-Net 加入图像金字塔的模块结合3D-CNN 输出图像视差图。一. 特征提取模块作者用 3层 33的小卷积核代替 77 的大卷积核，将图像降维1/2size. 虽然拥有同样大小的感受野，但深层的小 conv filter 显然有更少的参数，降低了计算成本。def convbn(in_planes, out_planes, kernel_size.
复制链接

扫一扫