深度学习中的常用下采样（Downsampling）方法

北北文

于 2025-03-28 00:22:18 发布

阅读量841

点赞数 12

分类专栏：深度学习 AI基础 AI面经文章标签：深度学习人工智能计算机视觉

本文链接：https://blog.csdn.net/Hongyu_Liu/article/details/146580984

版权

深度学习同时被 3 个专栏收录

7 篇文章

订阅专栏

AI面经

6 篇文章

订阅专栏

AI基础

4 篇文章

订阅专栏

下采样是深度学习中一种常用的技术，用于减少特征图的空间维度，降低计算复杂度，同时提取更高级的特征。
在这里插入图片描述

以下是常见的下采样方法及其应用场景：

1. 池化操作（Pooling）

最大池化（Max Pooling）

原理：在每个池化窗口中选择最大值
优点：保留显著特征，对位置微小变化不敏感
应用：CNN中最常用的下采样方法，如VGG、ResNet等网络
示例代码：

import torch.nn as nn
max_pool = nn.MaxPool2d(kernel_size=2, stride=2)

平均池化（Average Pooling）

原理：计算池化窗口内所有值的平均值
优点：保留区域整体特征，平滑效果好
应用：全局平均池化常用于网络末端替代全连接层，如GoogLeNet、ResNet
示例代码：

avg_pool = nn.AvgPool2d(kernel_size=2, stride=2)
global_avg_pool = nn.AdaptiveAvgPool2d((1, 1))  # 全局平均池化

随机池化（Stochastic Pooling）

原理：根据概率分布随机选择池化区域内的值
优点：在训练时引入随机性，有正则化效果
应用：防止过拟合的一种策略

2. 卷积下采样

步长卷积（Strided Convolution）

原理：使用大于1的步长进行卷积操作
优点：同时进行特征提取和下采样，参数可学习
应用：现代CNN架构如ResNet、EfficientNet等
示例代码：

strided_conv = nn.Conv2d(in_channels=64, out_channels=128, kernel_size=3, stride=2, padding=1)

可分离卷积（Separable Convolution）

原理：将标准卷积分解为深度卷积和逐点卷积
优点：减少参数量和计算量
应用：MobileNet、Xception等轻量级网络
示例代码：

depth_conv = nn.Conv2d(64, 64, kernel_size=3, stride=2, padding=1, groups=64)
point_conv = nn.Conv2d(64, 128, kernel_size=1)

3. 其他下采样方法

双线性插值（Bilinear Interpolation）

原理：使用双线性插值算法调整图像大小
优点：平滑，不会引入新的信息
应用：图像分割网络如U-Net、FCN中的上采样部分
示例代码：

resize = nn.Upsample(scale_factor=0.5, mode='bilinear', align_corners=True)

像素洗牌（Pixel Shuffling/Unshuffle）

原理：重新排列像素，将空间维度转换为通道维度
优点：无信息损失的下采样
应用：超分辨率网络的逆操作，如ESPCN
示例代码：

pixel_unshuffle = nn.PixelUnshuffle(downscale_factor=2)

跳跃连接下采样（Skip Connection with Downsampling）

原理：结合恒等映射和下采样操作
优点：保留更多信息，缓解梯度消失问题
应用：ResNet的下采样块
示例代码：

class DownsampleBlock(nn.Module):
    def __init__(self, in_channels, out_channels):
        super().__init__()
        self.conv = nn.Conv2d(in_channels, out_channels, 3, stride=2, padding=1)
        self.shortcut = nn.Sequential(
            nn.Conv2d(in_channels, out_channels, 1, stride=2),
            nn.BatchNorm2d(out_channels)
        )
    
    def forward(self, x):
        return self.conv(x) + self.shortcut(x)

注意力机制下采样（Attention-based Downsampling）

原理：使用注意力权重选择性地保留重要特征
优点：根据内容自适应下采样
应用：Transformer架构如ViT、Swin Transformer
示例代码：

# 简化的注意力下采样示例
class AttentionDownsample(nn.Module):
    def __init__(self, dim):
        super().__init__()
        self.attention = nn.MultiheadAttention(dim, num_heads=8)
        self.proj = nn.Linear(dim, dim)
    
    def forward(self, x):
        # x: [B, H*W, C]
        x = x.reshape(x.shape[0], -1, x.shape[-1])  # 展平空间维度
        x, _ = self.attention(x, x, x)
        # 选择性保留一半的token
        x = x[:, ::2, :]
        return self.proj(x)