文章目录
CNN+Transformer架构在遥感语义分割任务中展现出的核心优势源于其结合了两种模型的互补特性,具体体现在以下几个方面:
一、 局部细节与全局上下文的协同建模
1. CNN的局部感知优势
空间局部性:
卷积核的滑动窗口机制天然适配图像数据的局部相关性,能高效捕捉建筑物边缘、纹理等细节特征(如屋顶边缘、窗户排列模式)
平移等变性:
通过权值共享保持特征的空间一致性,对建筑物不同位置的重复结构(如规则排列的住宅区)具有稳定识别能力
层次化特征提取:
通过多级下采样逐步抽象特征,构建从边缘→纹理→语义的多尺度表达(如从砖瓦细节到整体建筑轮廓)
2. Transformer的全局关联优势
长距离依赖建模:
自注意力机制可建立像素间的全局关联,识别大范围空间关系(如建筑群布局与道路网络的拓扑关联)
动态权重分配:
通过注意力权重自动聚焦关键区域&#