Deeplabv3+

最新推荐文章于 2024-08-19 09:04:27 发布

mmfloatingdream

最新推荐文章于 2024-08-19 09:04:27 发布

阅读量693

点赞数 23

文章标签：深度学习机器学习人工智能

本文链接：https://blog.csdn.net/m0_59592518/article/details/141299842

版权

什么是DeeplabV3+模型

DeeplabV3+经典的语义分割模型，主要在模型的架构上作文章，引入了可任意控制编码器提取特征的分辨率，通过空洞卷积平衡精度和耗时。

DeeplabV3+在Encoder部分引入了大量的空洞卷积，在不损失信息的情况下，加大了感受野，让每个卷积输出都包含较大范围的信息。如下就是空洞卷积的一个示意图，所谓空洞就是特征点提取的时候会跨像素。

DeeplabV3+实现思路

一、预测部分

1、主干网络介绍

DeeplabV3+在论文中采用的是Xception系列作为主干特征提取网络，这里提供两个主干网络，分别是Xception和mobilenetv2。

本文以mobilenetv2为例解析。

MobileNet模型是Google针对手机等嵌入式设备提出的一种轻量级的深层神经网络。

MobileNetV2是MobileNet的升级版，它具有一个非常重要的特点就是使用了Inverted resblock，整个mobilenetv2都由Inverted resblock组成。

Inverted resblock可以分为两个部分：
左边是主干部分，首先利用1x1卷积进行升维，然后利用3x3深度可分离卷积进行特征提取，然后再利用1x1卷积降维。
右边是残差边部分，输入和输出直接相接。

在DeeplabV3中，一般不会5次下采样，可选的有3次下采样和4次下采样，本文使用的4次下采样。

完成MobilenetV2的特征提取后，获得两个有效特征层，一个有效特征层是输入图片高和宽压缩两次的结果，一个有效特征层是输入图片高和宽压缩四次的结果。

import math
import os

import torch
import torch.nn as nn
import torch.utils.model_zoo as model_zoo

BatchNorm2d = nn.BatchNorm2d

def conv_bn(inp, oup, stride):
    return nn.Sequential(
        nn.Conv2d(inp, oup, 3, stride, 1, bias=False),
        BatchNorm2d(oup),
        nn.ReLU6(inplace=True)
    )

def conv_1x1_bn(inp, oup):
    return nn.Sequential(
        nn.Conv2d(inp, oup, 1, 1, 0, bias=False),
        BatchNorm2d(oup),
        nn.ReLU6(inplace=True)
    )

class InvertedResidual(nn.Module):
    def __init__(self, inp, oup, stride, expand_ratio):
        super(InvertedResidual, self).__init__()
        self.stride = stride
        assert stride in [1, 2]

        hidden_dim = round(inp * expand_ratio)
        self.use_res_connect = self.stride == 1 and inp == oup

        if expand_ratio == 1:
            self.conv = nn.Sequential(
                # dw
                nn.Conv2d(hidden_dim, hidden_dim, 3, stride, 1, groups=hidden_dim, bias=False),
                BatchNorm2d(hidden_dim),
                nn.ReLU6(inplace=True),
                # pw-linear
                nn.Conv2d(hidden_dim, oup, 1, 1, 0, bias=False),
                BatchNorm2d(oup),
            )
        else:
            self.conv = nn.Sequential(
                # pw
                nn.Conv2d(inp, hidden_dim, 1, 1, 0, bias=False),
                BatchNorm2d(hidden_dim),
                nn.ReLU6(inplace=True),
                # dw
                nn.Conv2d(hidden_dim, hidden_dim, 3, stride, 1, groups=hidden_dim, bias=False),
                BatchNorm2d(hidden_dim),
                nn.ReLU6(inplace=True),
                # pw-linear
                nn.Conv2d(hidden_dim, oup, 1, 1, 0, bias=False),
                BatchNorm2d(oup),
            )

    def forward(self, x):
        if self.use_res_connect:
            return x + self.conv(x)
        else:
            return self.conv(x)

class MobileNetV2(nn.Module):
    def __init__(self, n_class=1000, input_size=224, width_mult=1.):
        super(MobileNetV2, self).__init__()
        block = InvertedResidual

最低0.47元/天解锁文章

mmfloatingdream

关注

23
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
Deeplabv3+

DeeplabV3+经典的语义分割模型，主要在模型的架构上作文章，引入了可任意控制编码器提取特征的分辨率，通过空洞卷积平衡精度和耗时。DeeplabV3+在Encoder部分引入了大量的空洞卷积，在不损失信息的情况下，加大了感受野，让每个卷积输出都包含较大范围的信息。如下就是空洞卷积的一个示意图，所谓空洞就是特征点提取的时候会跨像素。DeeplabV3+在论文中采用的是Xception系列作为主干特征提取网络，这里提供两个主干网络，分别是Xception和mobilenetv2。
复制链接

扫一扫