单目深度估计 Monodepth2 networks源码逐行注释

Source Code:resnet_encoder.py

from __future__ import absolute_import, division, print_function
import numpy as np
import torch
import torch.nn as nn
import torchvision.models as models
import torch.utils.model_zoo as model_zoo
# 导入所需的依赖库,包括NumPy、PyTorch的相关模块和函数
class ResNetMultiImageInput(models.ResNet):
# 定义了一个继承自models.ResNet的类ResNetMultiImageInput,用于构建具有不同输入图像数量的ResNet模型
    def __init__(self, block, layers, num_classes=1000, num_input_images=1):
    # 在__init__方法中,构建了ResNet模型的基本结构,包括卷积层、批归一化层、ReLU激活函数和各个ResNet层
    # num_classes表示模型的输出类别数量,默认为1000;num_input_images表示输入图像的数量,默认为1
        super(ResNetMultiImageInput, self).__init__(block, layers)
        self.inplanes = 64
        self.conv1 = nn.Conv2d(num_input_images * 3, 64, kernel_size=7, stride=2, padding=3, bias=False)
        # self.conv1定义了第一个卷积层,输入通道数为num_input_images * 3(RGB图像通道数为3),输出通道数为64,使用7x7的卷积核,步幅为2,填充为3
        self.bn1 = nn.BatchNorm2d(64)  
        # self.bn1定义了第一个批归一化层,对输出进行批归一化操作
        self.relu = nn.ReLU(inplace=True)  
        # self.relu定义了ReLU激活函数
        self.maxpool = nn.MaxPool2d(kernel_size=3, stride=2, padding=1)  
        # self.maxpool定义了最大池化层,使用3x3的池化窗口,步幅为2,填充为1
        self.layer1 = self._make_layer(block, 64, layers[0])
        self.layer2 = self._make_layer(block, 128, layers[1], stride=2)
        self.layer3 = self._make_layer(block, 256, layers[2], stride=2)
        self.layer4 = self._make_layer(block, 512, layers[3], stride=2)
        # self.layer1、self.layer2、self.layer3和self.layer4分别定义了4个ResNet层,调用了_make_layer方法进行层的构建
        for m in self.modules():
            if isinstance(m, nn.Conv2d):
                nn.init.kaiming_normal_(m.weight, mode='fan_out', nonlinearity='relu')
            elif isinstance(m, nn.BatchNorm2d):
                nn.init.constant_(m.weight, 1)
                nn.init.constant_(m.bias, 0)
        # for循环对所有模块进行初始化,对于卷积层使用Kaiming初始化,对于批归一化层设置权重为1,偏置项为0

def resnet_multiimage_input(num_layers, pretrained=False, num_input_images=1):
# 定义了一个函数resnet_multiimage_input,用于构建ResNet模型
# 参数num_layers表示ResNet的层数,只能是18或50
# 参数pretrained表示是否使用在ImageNet上预训练的模型,默认为False
# 参数num_input_images表示堆叠的输入帧数,默认为1
    assert num_layers in [18, 50], "Can only run with 18 or 50 layer resnet"
    blocks = {18: [2, 2, 2, 2], 50: [3, 4, 6, 3]}[num_layers]
    block_type = {18: models.resnet.BasicBlock, 50: models.resnet.Bottleneck}[num_layers]
    # 根据num_layers确定ResNet模型的结构,包括层数和残差块的数量
    model = ResNetMultiImageInput(block_type, blocks, num_input_images=num_input_images)
    # 通过ResNetMultiImageInput类创建了ResNet模型的实例
    if pretrained:
        loaded = model_zoo.load_url(models.resnet.model_urls['resnet{}'.format(num_layers)])
        loaded['conv1.weight'] = torch.cat(
            [loaded['conv1.weight']] * num_input_images, 1) / num_input_images
        model.load_state_dict(loaded)
    # 如果pretrained为True,则加载在ImageNet上预训练的模型权重,并根据num_input_images进行权重调整
    return model
    # 返回构建好的ResNet模型

class ResnetEncoder(nn.Module):
# 定义了一个继承自nn.Module的类ResnetEncoder,用于实现ResNet编码器
    def __init__(self, num_layers, pretrained, num_input_images=1):
        super(ResnetEncoder, self).__init__()

        self.num_ch_enc = np.array([64, 64, 128, 256, 512])
        # self.num_ch_enc定义了编码器各个阶段的通道数
        resnets = {18: models.resnet18,
                   34: models.resnet34,
                   50: models.resnet50,
                   101: models.resnet101,
                   152: models.resnet152}
        # resnets是一个字典,包含不同层数的ResNet模型
        if num_layers not in resnets:
            raise ValueError("{} is not a valid number of resnet layers".format(num_layers))

        if num_input_images > 1:
            self.encoder = resnet_multiimage_input(num_layers, pretrained, num_input_images)
        else:
            self.encoder = resnets[num_layers](pretrained)

        if num_layers > 34:
            self.num_ch_enc[1:] *= 4
        # 根据num_layers确定选择的ResNet模型
        # 如果num_input_images大于1,则使用resnet_multiimage_input函数构建ResNet模型
        # 如果num_input_images等于1,则使用对应层数的ResNet模型,并根据pretrained确定是否使用预训练权重
        # 如果num_layers大于34,将self.num_ch_enc中第1个元素之后的元素乘以4,以匹配高层特征的通道数
    def forward(self, input_image):
        self.features = []
        # 创建一个空列表用于存储特征
        x = (input_image - 0.45) / 0.225
        # 对输入图像进行归一化处理
        x = self.encoder.conv1(x)
        # 输入图像经过第一个卷积层
        x = self.encoder.bn1(x)
        # 对卷积层的输出进行批归一化操作
        self.features.append(self.encoder.relu(x))
        # 将输出应用ReLU激活函数后添加到特征列表中
        self.features.append(self.encoder.layer1(self.encoder.maxpool(self.features[-1])))
        self.features.append(self.encoder.layer2(self.features[-1]))
        self.features.append(self.encoder.layer3(self.features[-1]))
        self.features.append(self.encoder.layer4(self.features[-1]))
        # 对ResNet的各个阶段进行前向传播操作
        return self.features
        # 返回特征列表

Source Code:depth_decoder.py

from __future__ import absolute_import, division, print_function
import numpy as np
import torch
import torch.nn as nn
from collections import OrderedDict
from layers import *
# 导入所需的依赖库和模块

class DepthDecoder(nn.Module):
# 定义了一个名为DepthDecoder的类,继承自nn.Module
    def __init__(self, num_ch_enc, scales=range(4), num_output_channels=1, use_skips=True):
    #在初始化函数__init__中,定义了该类的各个属性和参数,包括编码器通道数、缩放因子范围、输出通道数和是否使用跳跃连接等
        super(DepthDecoder, self).__init__()
        self.num_output_channels = num_output_channels
        self.use_skips = use_skips
        self.upsample_mode = 'nearest'
        self.scales = scales
        self.num_ch_enc = num_ch_enc
        self.num_ch_dec = np.array([16, 32, 64, 128, 256])
        
        # decoder
        self.convs = OrderedDict()
        # 定义了一个有序字典self.convs,用于存储解码器的卷积层
        for i in range(4, -1, -1):
        # 通过循环,逆序构建解码器的卷积块
            
            # 每个卷积块由两个卷积层组成,即upconv_0和upconv_1
            # upconv_0
            num_ch_in = self.num_ch_enc[-1] if i == 4 else self.num_ch_dec[i + 1]
            num_ch_out = self.num_ch_dec[i]
            # num_ch_in和num_ch_out分别表示输入和输出通道数
            self.convs[("upconv", i, 0)] = ConvBlock(num_ch_in, num_ch_out)  
            # 将每个卷积块添加到有序字典self.convs中
            # 对于upconv_0,输入通道数为self.num_ch_enc[-1](编码器最后一层的通道数)(如果i==4),否则为self.num_ch_dec[i + 1],输出通道数为self.num_ch_dec[i]

            # upconv_1
            num_ch_in = self.num_ch_dec[i]
            if self.use_skips and i > 0:
                num_ch_in += self.num_ch_enc[i - 1]
            num_ch_out = self.num_ch_dec[i]
            self.convs[("upconv", i, 1)] = ConvBlock(num_ch_in, num_ch_out)
            # 对于upconv_1,输入通道数为self.num_ch_dec[i],如果使用跳跃连接且i > 0,则增加self.num_ch_enc[i - 1],输出通道数为self.num_ch_dec[i]
        for s in self.scales:
        # 对于指定的缩放因子scales中的每个值s,定义了名为dispconv的卷积层
            self.convs[("dispconv", s)] = Conv3x3(self.num_ch_dec[s], self.num_output_channels)
            # 输入通道数为self.num_ch_dec[s],输出通道数为self.num_output_channels
            # 将dispconv卷积层添加到有序字典self.convs中
        self.decoder = nn.ModuleList(list(self.convs.values()))
        # 使用nn.ModuleList将有序字典self.convs中的所有卷积层作为解码器的子模块
        self.sigmoid = nn.Sigmoid()
        # 创建了一个Sigmoid激活函数对象self.sigmoid

    def forward(self, input_features):
    # 定义了前向传播函数forward,接收输入特征input_features
        self.outputs = {}
        # 创建一个空字典self.outputs用于存储输出

        # decoder 对输入特征进行解码操作
        x = input_features[-1]
        # 初始时,将输入特征的最后一层赋值给变量x
        for i in range(4, -1, -1):
        # 使用循环从最高分辨率到最低分辨率进行解码操作
            x = self.convs[("upconv", i, 0)](x)
            # 对于每个解码层i,首先通过upconv_0卷积层对x进行上采样操作
            x = [upsample(x)]
            # 对上采样后的x进行upsample操作,然后添加到列表x中
            if self.use_skips and i > 0:
            # 如果使用跳跃连接并且i > 0,将input_features[i - 1]添加到列表x中
                x += [input_features[i - 1]]
            x = torch.cat(x, 1)
            # 使用torch.cat函数将列表x中的张量按通道拼接在一起
            x = self.convs[("upconv", i, 1)](x)
            # 通过upconv_1卷积层对拼接后的特征x进行卷积操作
            if i in self.scales:
                self.outputs[("disp", i)] = self.sigmoid(self.convs[("dispconv", i)](x))
            # 如果i在缩放因子scales中,则将输出结果通过Sigmoid激活函数进行处理,并存储在self.outputs字典中

        return self.outputs
        # 返回存储在self.outputs字典中的输出结果。
  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Monodepth2是一个使用基于单目图像的无监督学习法完成深度估计任务的模型。它使用了SFM(Structure from Motion)模型原理,在卷积神经网络中同时训练了深度网络和位姿网络。深度网络的输入是一段视频序列的连续多帧图片,输出对应的深度图像;位姿网络的输入是目标视图和上一帧视图,输出相机运动姿态的变化。通过构建重投影图像并计算重投影误差,Monodepth2使用损失函数来反向传播更新模型参数,优化训练网络模型。\[2\] 在代码阅读方面,Monodepth2的输入部分进行了颜色增强和翻转的数据增强操作。如果选择共享编码器(encoder),则所有帧都需要输入网络;否则,只有第0帧输入网络以获得深度图。输入网络的数据进行了四种尺度的变化,最初保留了5种尺度,包括原始尺度、设定尺度、设定尺度的1/2、1/4和1/8,然后删除了原始尺度。内参矩阵也进行了四种尺度的变化,用于图像重建计算。只有设定分辨率的输入被输入到编码器和深度解码器中,使用不同的输入输出通道数得到了四个分辨率的深度图。如果有深度地面真值(depth_gt),则也作为监督信号输入到网络中以加速损失函数的收敛。\[3\] #### 引用[.reference_title] - *1* *3* [深度估计自监督模型monodepth2论文总结和源码分析【理论部分】](https://blog.csdn.net/weixin_43148897/article/details/122453979)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* [单目图像深度估计——Monodepth2](https://blog.csdn.net/weixin_46591090/article/details/125387893)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值