示例代码(摘取):
# Contracting path (encoder)
self.conv1 = nn.Conv2d(self.n_channels, 64, kernel_size=3, padding=1)
self.conv2 = nn.Conv2d(64, 128, kernel_size=3, padding=1)
self.conv3 = nn.Conv2d(128, 256, kernel_size=3, padding=1)
self.conv4 = nn.Conv2d(256, 512, kernel_size=3, padding=1)
self.conv5 = nn.Conv2d(512, 1024, kernel_size=3, padding=1)
self.pool = nn.MaxPool2d(kernel_size=2, stride=2) #下采样(缩小图片)
这段代码组合起来是在做 特征提取 + 图像缩小(分辨率减半),是 U-Net 编码器的一部分。
操作 | 目的 | 图像尺寸变化 | 举例 |
---|---|---|---|
Conv2d | 提取特征 | 尺寸不变(通过 padding=1 保证) | 图像里哪里有边缘、纹理、形状 |
MaxPool2d | 缩小图像尺寸 | 每次变成原来的一半 | 图变小,但保留重要信息 |
📦 一、Conv2d
是什么?
nn.Conv2d(in_channels, out_channels, kernel_size=3, padding=1)
作用:
- 用卷积核扫描图片(提取图像特征)
- 通道数增加,图像更“抽象”,更像“特征图”
举个例子:
假设一张猫的图片是 512×512×3(3 通道 RGB)
Conv2d(3, 64, 3, padding=1)
→ 输出会是 512×512×64
也就是说,图像没变大,但每个像素多了很多信息(比如毛发边缘、胡须、眼睛的形状等)。
🌀 二、MaxPool2d
是什么?
nn.MaxPool2d(kernel_size=2, stride=2)
作用:
- 缩小图片尺寸(分辨率变小)
- 保留最显著的特征
- 降低后续计算量
举个例子:
刚刚的 512×512×64 的特征图
池化后变成:256×256×64
,通道数不变,但宽高变小!
🧱 三、它们如何配合使用?
我们来看看典型的一层是怎么用的(以 conv1 和 pool 为例):
x = F.relu(self.conv1(x)) # 卷积提取特征(尺寸不变,通道从3变64)
x = self.pool(x) # 池化下采样(尺寸减半,通道还是64)
这个组合你会反复看到,是典型的 CNN 模式:卷积 → 激活 → 池化
🔄 四、逐层演变过程(以输入512×512×3为例):
层级 | 操作 | 尺寸变化 | 通道数变化 |
---|---|---|---|
输入图像 | 原始输入 | 512×512 | 3 |
Conv1 | 卷积3→64 | 512×512 | 64 |
Pool1 | 池化 | 256×256 | 64 |
Conv2 | 卷积64→128 | 256×256 | 128 |
Pool2 | 池化 | 128×128 | 128 |
Conv3 | 卷积128→256 | 128×128 | 256 |
Pool3 | 池化 | 64×64 | 256 |
Conv4 | 卷积256→512 | 64×64 | 512 |
Pool4 | 池化 | 32×32 | 512 |
Conv5 | 卷积512→1024 | 32×32 | 1024 |
✅ 总结一下
模块 | 像是干什么的 |
---|---|
Conv2d | 是在“识图”,比如识别轮廓、边缘、形状、纹理等,让图像越来越有“含义” |
MaxPool2d | 是在“压缩”,像把大图压成小图,但保留最明显的特征 |
它们像是一组搭档:一个负责提取“图像的本质”,一个负责“把图像浓缩”。