1 引言
本文主要是对《CS-Net: Deep Multibranch Network Considering Scene Features for Sharpness Assessment of Remote Sensing Images》这篇论文的一个解读与总结,原文链接:CS-Net: Deep Multibranch Network Considering Scene Features for Sharpness Assessment of Remote Sensing Images | IEEE Journals & Magazine | IEEE Xplore
本篇论文是对遥感图像清晰度评估的一个模型设计。作者采用了MIM(多任务模块)将场景分类任务与清晰度评估模块进行合并,通过多任务学习可以共享与场景分类和清晰度评估相关的特征。模型首先采用了IAM(改进注意力模块)将空间注意力和通道注意力组合,分别改进两个注意力,将他们组合起来。然后采用FFM(特征图融合模块)将不同尺度的特征图通过不同的权重进行融合。最后采用DBLF(双分支损失函数)采用梯度平衡策略,秉持着优先解决挑战性高的任务原则设计损失函数权重。
2 现已有的研究
2.1 基于空间域
基于空间域的方法是通过提取梯度和边缘信息等空间特征来评估图像清晰度。梯度是通过灰度梯度函 数提取的,该函数通过测量相邻像素之间的差异来评估图像的清晰度。
2.2 基于频域
基于频域的方法通过频域中的高频和低频分量的变换来评估图像的清晰度,这些分量代表图像的清晰和模糊区域。常用的评价函数包括傅立叶变换和小波变换。
2.3 基于机器学习
基于机器学习的方法主要依靠支持向量回归和支持向量聚类技术。随着深度学习方法的不断发展,越来越多的基于深度学习的方法被用于图像清晰度评估。
2.4 存在的问题
即使现已经存在多种图像清晰度评估方法,但在评估遥感图像的清晰度方面仍然存在许多挑战。遥感图像覆盖面广,场景复杂多样,纹理信息丰富。此外,遥感图像的获取常常受到模糊和噪声的影响。
同时,现有的许多方法未能充分考虑场景特征、模糊和噪声的影响。因此统一的评价指标可能无法准确描述清晰度的变化水平为了解决上述问题,提出了一种基于考虑场景特征的深度多分支网络的遥感图像清晰度评估方法。
3 模型设计
总的模型架构图如下:
3.1 IAM
为了使特征提取网络更加关注重要信息,减少无用背景信息的影响,引入了CBAM(卷积块注意力模块)注意力机制。CBAM由两个模块组成:通道注意力模块和空间注意力模块。为了消除预训练模型初始参数对模型的潜在影响,作者对CBAM的通道注意力模块和空间注意力模块做了一个改进。同时将经过通道和空间注意力得到的注意力权重矩阵与原始特征相乘来自适应地调整特征。
3.1.1 通道注意力
原通道注意力权重矩阵:
改进后的通道注意力权重矩阵:
改进后的注意力权重就是在原激活函数之前添加BN层,这样的作用可以聚焦重要的特征,减少无用特征的影响。同时可以减少对初始参数的敏感性,降低预训练模型初始参数对模型的潜在影响。
3.1.2 空间注意力
原空间注意力权重矩阵:
改进后的空间注意力权重矩阵:
空间注意力模块的意义就是对通道注意力的一个补充,突出有意义的目标位置的特征信息。
综上所述,最后改进后的输出:
初始状态下,改进的注意力机制将输出原始特征。因此,这样就不会改变预训练模型的初始参数,不会影响初始状态下的网络梯度反向传播。
采用最大池化:使得模型更关注图片的纹理信息,减少背景这种无关信息对图像本身的影响。
采用平均池化:又保留了遥感图像中普遍存在的背景特征。
3.2 FFM
3.2.1 特征提取
3.2.2 特征融合
如果将得到的每个特征图分配一样的权重,那么将无法描绘出单个个体特征图的重要性。
作者设计的特征融合模块:
① 先将四个不同尺寸的特征图经过GAP(全局平均池化)作为输入拼接在一起;
② 然后经过FC,和Sigmoid得到各个特征图对应的权重比例,融合成一个新的FM;
③ 最后再经过FC层,得到各个类别分数;
3.3 DBLF
因为不同任务反向传播的梯度大小可能不在一个数量集,这可能导致一个任务训练的很好,另一个任务训练的很差。
本文采用的是梯度平衡策略给两个任务的损失函数设置不同的权重。优选考虑挑战性强的任务,降低训练的很好的任务的损失函数权重,增加训练的不好的任务的损失函数权重。
SCM和SAM采用的都是cross-entropy loss function(交叉熵损失函数)评估损失。
交叉熵损失函数:
CS-Net总的损失函数:
其中
ki表示各分支当前训练批次的评价指标,为当前批次的平均正确率,正确率越高,λi越小,使得网络训练更偏向另一任务。
综上,总的损失函数可以表示为:
4 实验
4.1 数据
由于遥感图像清晰度评估领域缺乏公共清晰度评估数据集,实验中使用的数据基于AID数据集创建。AID数据集包含10000张图像,每张尺寸为600×600。
为了突出纹理差异的影响, 本文数据集包含6个典型类别:
因为模糊和噪声是影响遥感图像清晰度的重要因素。为了产生不同清晰度的数据,作者在进行高斯模糊处理的同时,在原始遥感图像中添加高斯噪声。
4.2 评价指标
其中 表示混淆矩阵的对角线元素, 也就是正确预测的总样本数。
表示混淆矩阵的每个元素, 计算了预测的总样本数。
4.3 性能
模型在一个数据集上比较了各种分类方法,包括LBP、SVM等传统机器学习算法和VGG-19、ResNet-50等深度学习方法,发现模型性能普遍优于原有的方法。
消融实验结果表明模型的每个结构的重要性。
以上就是我对于这篇论文的理解,如有不当,欢迎指正!