深入理解Gluon教程中的DenseNet稠密连接网络-CSDN博客

本文链接：https://blog.csdn.net/gitblog_00746/article/details/148324205

深入理解Gluon教程中的DenseNet稠密连接网络

d2l-zh 项目地址: https://gitcode.com/gh_mirrors/d2l/d2l-zh

引言

在深度学习领域，卷积神经网络(CNN)架构的创新一直是推动计算机视觉任务性能提升的关键因素。DenseNet(稠密连接网络)作为ResNet之后的重要创新，通过独特的稠密连接机制，在保持计算效率的同时显著提升了特征重用能力。本文将基于Gluon教程内容，深入解析DenseNet的核心思想和实现细节。

DenseNet的核心思想

从ResNet到DenseNet的演进

ResNet通过残差连接实现了跨层信息传递，其基本单元可以表示为： $$f(\mathbf{x}) = \mathbf{x} + g(\mathbf{x})$$

DenseNet将这一思想进一步扩展，采用稠密连接机制，每一层都与之前所有层直接相连。数学表达式为： $$\mathbf{x} \to \left[\mathbf{x}, f_1(\mathbf{x}), f_2([\mathbf{x}, f_1(\mathbf{x})]), \ldots\right]$$

这种连接方式带来了几个显著优势：

缓解梯度消失问题
增强特征传播
鼓励特征重用
大幅减少参数数量

网络架构组成

DenseNet主要由两种组件构成：

稠密块(Dense Block)：包含多个卷积层，每个层的输入是前面所有层输出的拼接
过渡层(Transition Layer)：用于压缩模型，包含1×1卷积和平均池化

DenseNet实现详解

基础构建块

DenseNet使用"批量归一化-ReLU-卷积"的标准序列作为基础构建块：

def conv_block(input_channels, num_channels):
    return nn.Sequential(
        nn.BatchNorm2d(input_channels), 
        nn.ReLU(),
        nn.Conv2d(input_channels, num_channels, kernel_size=3, padding=1))

稠密块实现

稠密块的核心特点是每一层都将前面所有层的特征图拼接起来作为输入：

class DenseBlock(nn.Module):
    def __init__(self, num_convs, input_channels, num_channels):
        super(DenseBlock, self).__init__()
        layer = []
        for i in range(num_convs):
            layer.append(conv_block(
                num_channels * i + input_channels, num_channels))
        self.net = nn.Sequential(*layer)

    def forward(self, X):
        for blk in self.net:
            Y = blk(X)
            X = torch.cat((X, Y), dim=1)  # 通道维度拼接
        return X

这里的关键参数是增长率(growth rate)，控制每层输出的通道数。例如，增长率k=32表示每层产生32个新特征图。

过渡层设计

过渡层用于控制模型复杂度，包含：

1×1卷积减少通道数
2×2平均池化减半空间维度

def transition_block(input_channels, num_channels):
    return nn.Sequential(
        nn.BatchNorm2d(input_channels), 
        nn.ReLU(),
        nn.Conv2d(input_channels, num_channels, kernel_size=1),
        nn.AvgPool2d(kernel_size=2, stride=2))

完整DenseNet架构

完整的DenseNet模型构建流程如下：

初始卷积和池化层
多个稠密块与过渡层交替
全局平均池化和全连接层

# 初始部分
b1 = nn.Sequential(
    nn.Conv2d(1, 64, kernel_size=7, stride=2, padding=3),
    nn.BatchNorm2d(64), nn.ReLU(),
    nn.MaxPool2d(kernel_size=3, stride=2, padding=1))

# 稠密块与过渡层
num_channels, growth_rate = 64, 32
num_convs_in_dense_blocks = [4, 4, 4, 4]
blks = []
for i, num_convs in enumerate(num_convs_in_dense_blocks):
    blks.append(DenseBlock(num_convs, num_channels, growth_rate))
    num_channels += num_convs * growth_rate
    if i != len(num_convs_in_dense_blocks) - 1:
        blks.append(transition_block(num_channels, num_channels // 2))
        num_channels = num_channels // 2

# 输出部分
net = nn.Sequential(
    b1, *blks,
    nn.BatchNorm2d(num_channels), nn.ReLU(),
    nn.AdaptiveAvgPool2d((1, 1)),
    nn.Flatten(),
    nn.Linear(num_channels, 10))