机器学习专栏（66）：语义分割核心技术详解——从FCN到Mask R-CNN全景解析

Sonal_Lynn

已于 2025-05-14 14:16:23 修改

阅读量789

点赞数 14

分类专栏：人工智能专题文章标签： YOLO 机器学习 python 人工智能目标检测

于 2025-05-14 14:15:45 首次发布

本文链接：https://blog.csdn.net/Conan_0728/article/details/147953121

版权

4.1 Transformer在分割中的应用

一、语义分割技术演进全景图（思维导图）

二、语义分割核心技术解析

2.1 全卷积网络（FCN）革命性突破

传统CNN在处理分割任务时面临三个关键挑战：

空间信息丢失：池化操作导致特征图分辨率降低
感受野限制：深层网络难以捕捉细节信息
输出维度限制：全连接层破坏空间结构

FCN通过三大创新解决这些问题：

全卷积化：将全连接层转换为1x1卷积层
转置卷积上采样：采用可学习的上采样方式
跳跃连接：融合浅层细节与深层语义

# TensorFlow实现FCN核心结构示例
from tensorflow.keras import Model
from tensorflow.keras.layers import Conv2D, Conv2DTranspose, Add

def fcn_block(inputs):
    # 编码器部分
    x = Conv2D(64, 3, activation='relu', padding='same')(inputs)
    x = Conv2D(64, 3, activation='relu', padding='same')(x)
    pool1 = MaxPooling2D()(x)
    
    # 解码器部分
    up1 = Conv2DTranspose(64, 3, strides=2, padding='same')(pool1)
    merge1 = Add()([up1, x])
    
    # 最终输出
    outputs = Conv2D(num_classes, 1, activation='softmax')(merge1)
    return outputs

2.2 转置卷积的数学原理与实践

转置卷积的数学本质可以通过矩阵运算理解：

常规卷积：Y = WX （W为卷积矩阵）
转置卷积：X' = W^T Y'

参数设置关键点：

步幅(stride)：控制上采样率
填充(padding)：影响输出尺寸
核大小(kernel_size)：决定特征融合范围

实验对比数据表：

上采样方法	PSNR(dB)	推理时间(ms)	参数量(MB)
最近邻插值	28.7	2.1	0
双线性插值	29.3	2.3	0
转置卷积	31.5	3.8	0.54

2.3 多尺度特征融合技术演进

UNet的跳跃连接创新：

横向连接编码器与解码器对应层
采用通道拼接(concat)代替简单相加
引入瓶颈层控制特征维度

DeepLab系列的核心创新：

空洞空间金字塔池化(ASPP)：
- 多尺度空洞卷积并行
- 包含1x1卷积和全局平均池化
- 不同dilation rate捕捉多尺度信息
深度可分离卷积：
- 将标准卷积分解为深度卷积和点卷积
- 减少3-5倍计算量
- 保持近似精度的同时提升效率

# ASPP模块实现代码
def aspp_module(inputs, output_stride):
    if output_stride == 16:
        rates = [6, 12, 18]
    elif output_stride == 8:
        rates = [12, 24, 36]
    
    # 并行卷积分支
    conv1x1 = Conv2D(256, 1)(inputs)
    conv3x3_1 = Conv2D(256, 3, dilation_rate=rates[0], padding='same')(inputs)
    conv3x3_2 = Conv2D(256, 3, dilation_rate=rates[1], padding='same')(inputs)
    conv3x3_3 = Conv2D(256, 3, dilation_rate=rates[2], padding='same')(inputs)
    
    # 全局特征分支
    global_avg = GlobalAveragePooling2D()(inputs)
    global_feat = Dense(256)(global_avg)
    global_feat = Reshape((1,1,256))(global_feat)
    
    # 特征融合
    concat = Concatenate()([conv1x1, conv3x3_1, conv3x3_2, conv3x3_3, global_feat])
    outputs = Conv2D(256, 1)(concat)
    return outputs