基于MHSA+DeepLab v3+的无人机遥感影像小麦倒伏检测

1.引言

    倒伏是影响小麦产量和质量的重要因素之一,及时准确获取倒伏信息有利于小麦良种选育中的倒伏损失鉴定。以小麦灌浆期和成熟期两个生长阶段的可见光无人机遥感影像为依据,构建多生长阶段小麦倒伏数据集,通过在DeepLab v3+模型中添加不同的注意力模块进行比较分析,提出一种基于多头自注意力(MHSA)的DeepLab v3+小麦倒伏检测模型。

  并且与三种模型进行比较,分别是Segnet,PSPnet,和Deeplabv3+,在灌浆期mPA提高了25.45、7.54、1.82个百分点和mIoU提高了36.15、11.37、2.49个百分点,在成熟期mPA提高了15.05、6.32、0.74个百分点,mIoU提高了23.36、9.82、0.95个百分点。

研究表明提出的改进的DeepLab v3+模型能够有效地捕获灌浆期和成熟期的无人机小麦遥感图像中的倒伏特征,准确识别不同生育期的倒伏区域,具有良好的适用性,为利用无人机遥感技术鉴定小麦倒伏灾害等级和良种选育等提供了参考。

      首先介绍Segnet模型:

      包含VGG16中的13个卷积层 (舍弃了全连接层,可训练参数从134M降低到14.7M),预训练,每一个encoder layer对应一个decoder layer,因此decoder同样有13个卷积层。

卷积操作:卷积+batch normalization+ReLU(element-wise)

最大池化操作: 2*2 window / stride: 2 ,(achieve translation invariance) 虽然最大池化和下采样操作可以achieve more translation invariance,但会损失特征图的空间分辨率,这会导致边界描绘 (boundary delineation) 的不准确,因此需要获取并存储 (capture and store) 边界信息

如何获取并存储边界信息?——直接存储所有encoder feature maps需要大量内存。一种更有效的方式是存储 max-pooling indices,即记住最大池化操作中,最大值在2*2窗口中的位置。每个2*2窗口仅需要2 bits内存存储该信息。

 

上采样操作:使用对应层的the memorized max-pooling indices (无法使用cuDNN加速)

FCN的上采样过程包含一个dimensionality reduction步骤,使用1*1*64*K的卷积核;upsampling产生K-channels特征图 (upsampling kernels使用bilinear interpolation weights初始化);最后再执行对应像素相加 (element-wise add)

因此在推理过程中 (inference time),FCN decoder要求将将encoder的feature maps完整保留下来,需要大量内存。

softmax classifier:接收最后一个decoder的输出,对每个像素独立分类,输出有K个通道,每个通道代表一个类别。

PSPnet:

Input Image:即自然场景下拍摄的包含不同目标的原始图;

Feature Map:即通过前面CNN获得的特征图,这个CNN是预训练的ResNet;

Pyramid Pooling Module:上图中方框POOL表示采用1x1、2x2、3x3和6x6四种不同尺寸的pooling操作得到多个尺寸的特征图,并对这些尺寸的特征图再次进行“1x1的Conv”来减少通道数。然后采用双线性插值进行UPSAMPLE,即通过上采样来获得金字塔模块前相同尺寸的特征图,并在通道上进行拼接;

PSP 模块的具体操作:

① 自适应池化 : 将输入的特征图变成任意大小的特征图
② 1x1卷积 : 改变特征图的通道大小
③ Upsample : 将输入特征图的 HW 变大
④ Concat : 将多个特征图, 通过某一维度拼接起来

PSP 模块:
① 将输入为 NCHW 特征图变成4个 HW 不同的特征图(1x1、2x2、3x3、6x6)
② 通过 1x1 的卷积给4个不同的特征图进行降维
③ 将4个不同的特征图通过上采样变为输入特征图大小
④ 将输入特征图和4个经过上采样后的特征图进行拼接

2 .研究方法

2.1 DeepLab v3+深度语义分割模型

DeepLab v3+网络是通过对DeepLab v3增加了编-解码模块和Xception主干网络改进而来。其中编解码模块主要用于恢复原始像素信息,更好地保留分割细节和同时编码丰富的上下文信息;而Xception主干网络采用深度卷积进一步提高算法的精度和速度。在Xception结构中,先对输入进行1×1的卷积,之后将通道分组,分别使用不同的3×3卷积提取特征,最后将各组结果串联在一起作为输出。

Deeplab v3+采用空洞卷积,使其在级联模块(采用50层或101层的ResNet网络)和空洞空间金字塔池化(Atrous spatial pyramid pooling, ASPP)的框架下,能够获得更多尺度的信息。DeepLab v3+解码部分借鉴了FCN的跳步连接方式,用中间一层低维特征图扩充输出图信息,以便更好地恢复边界细节。在提高网络尺寸适应性方面,DeepLab v3+为带孔空间金字塔池化模块增加了不同尺度范围内语义信息的区分和提取,利用多种比例和有效接受野的不同分辨率特征来挖掘多尺度的上下文内容信息,以实现对不同尺寸目标的识别。

  2.2 基于多头自注意力的DeepLab v3+小麦倒伏识别模型

2.2.1 DeepLab v3+识别小麦倒伏的局限性

在DeepLab v3+模型中,虽然丰富的语义信息被编码,但骨干网络的多次下采样,使得倒伏小麦的边缘信息丢失,从而导致边缘模糊;使用空洞卷积可以缓解由于下采样过多使得倒伏小麦边缘信息丢失的问题,但空洞卷积会造成局部信息丢失以及远距离获取的信息关联减弱。此外DeepLab v3+网络中ASPP结构使用不同扩张率(6、12、18)来并行处理输入特征以提取多尺度信息,但过大的扩张率会影响图像边缘特征的提取以及局部特征之间的关联,从而产生大尺度目标语义分割空洞现象,这将对农田无人机遥感影像中的大面积小麦倒伏的检测精度造成较大影响。

  

2.2.2 多头自注意力模型

Transformer中的多头自注意力(Multi-head self-attention, MHSA)模块因其可以捕获数据的全局依赖性,能够表示数据之间更丰富的联系,而受到广泛关注。在MHSA模块中对Q、K、V(V为值向量,Q为查询向量、K为键向量)进行自注意力变换,这个过程独立重复h次(h为MHSA模块中的头数),最后将h次比例点积注意力的结果进行拼接,再进行一次线性变换得到MHSA模块的最终输出。其本质就是多个独立的注意力计算然后再集成,每一个注意力机制函数只负责最终输出序列中一个子空间。

2.2.3 改进的DeepLab v3+模型

鉴于MHSA复杂度较高,本文在低分辨率的高层语义特征上增加MHSA。首先,将DeepLab v3+中ResNet骨干网络的C5层用多头自注意力模块代替,减轻骨干网络运算负担。其次,在高层特征上使用全局自注意力建立小麦倒伏特征的全局依赖关系,有效克服空洞卷积造成的远距离获取信息相关性弱和ASPP结构中过大扩张率对局部特征间关联性的影响。

    基于多头自注意力的DeepLab v3+模型的识别精度优于SegNet、PSPNet和DeepLab v3+模型,与基于CBAM和SimAM注意力的DeepLab v3+相比,提出方法也取得更好的识别结果,验证了其在解译农田小麦倒伏遥感影像方面的有效性。

  • 25
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值