Conv2d 和 MaxPool2d 的联系与区别,是彻底搞懂 U-Net 编码器(Contracting path)的关键一步

示例代码(摘取):

  # Contracting path (encoder)
  self.conv1 = nn.Conv2d(self.n_channels, 64, kernel_size=3, padding=1)
  self.conv2 = nn.Conv2d(64, 128, kernel_size=3, padding=1)
  self.conv3 = nn.Conv2d(128, 256, kernel_size=3, padding=1)
  self.conv4 = nn.Conv2d(256, 512, kernel_size=3, padding=1)
  self.conv5 = nn.Conv2d(512, 1024, kernel_size=3, padding=1)
  self.pool = nn.MaxPool2d(kernel_size=2, stride=2) #下采样(缩小图片)

这段代码组合起来是在做 特征提取 + 图像缩小(分辨率减半),是 U-Net 编码器的一部分。

操作目的图像尺寸变化举例
Conv2d提取特征尺寸不变(通过 padding=1 保证)图像里哪里有边缘、纹理、形状
MaxPool2d缩小图像尺寸每次变成原来的一半图变小,但保留重要信息

📦 一、Conv2d 是什么?

nn.Conv2d(in_channels, out_channels, kernel_size=3, padding=1)

作用:

  • 用卷积核扫描图片(提取图像特征)
  • 通道数增加,图像更“抽象”,更像“特征图”

举个例子:

假设一张猫的图片是 512×512×3(3 通道 RGB)
Conv2d(3, 64, 3, padding=1) → 输出会是 512×512×64

也就是说,图像没变大,但每个像素多了很多信息(比如毛发边缘、胡须、眼睛的形状等)。


🌀 二、MaxPool2d 是什么?

nn.MaxPool2d(kernel_size=2, stride=2)

作用:

  • 缩小图片尺寸(分辨率变小)
  • 保留最显著的特征
  • 降低后续计算量

举个例子:

刚刚的 512×512×64 的特征图
池化后变成:256×256×64,通道数不变,但宽高变小!


🧱 三、它们如何配合使用?

我们来看看典型的一层是怎么用的(以 conv1 和 pool 为例):

x = F.relu(self.conv1(x))        # 卷积提取特征(尺寸不变,通道从3变64)
x = self.pool(x)                 # 池化下采样(尺寸减半,通道还是64)

这个组合你会反复看到,是典型的 CNN 模式:卷积 → 激活 → 池化


🔄 四、逐层演变过程(以输入512×512×3为例):

层级操作尺寸变化通道数变化
输入图像原始输入512×5123
Conv1卷积3→64512×51264
Pool1池化256×25664
Conv2卷积64→128256×256128
Pool2池化128×128128
Conv3卷积128→256128×128256
Pool3池化64×64256
Conv4卷积256→51264×64512
Pool4池化32×32512
Conv5卷积512→102432×321024

✅ 总结一下

模块像是干什么的
Conv2d是在“识图”,比如识别轮廓、边缘、形状、纹理等,让图像越来越有“含义”
MaxPool2d是在“压缩”,像把大图压成小图,但保留最明显的特征

它们像是一组搭档:一个负责提取“图像的本质”,一个负责“把图像浓缩”。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值