翻译——红外遥感图像舰船探测的多分辨率网络

最新推荐文章于 2025-03-26 08:00:00 发布

折耳猫的橙汁儿

最新推荐文章于 2025-03-26 08:00:00 发布

阅读量1.2k

点赞数 1

分类专栏：遥感文章标签：人工智能

遥感专栏收录该内容

3 篇文章

订阅专栏

摘要：船舶检测是遥感图像处理与分析的一个热点。目前大多数方法仅利用单一分辨率图像，不能充分利用已注册的多分辨率图像。本文提出了一种基于卷积神经网络的多分辨率红外遥感图像舰船检测新方法。通过对不同尺寸的内核进行特殊设计，我们的网络可以同时获取已注册的多分辨率图像，提取出更健壮的特征，并给出更准确的检测结果。此外，由于舰船目标在红外遥感图像中只占几个像素，为了解决红外遥感图像中极端的背景-前景不平衡问题，我们引入了焦损来训练我们的网络。通过对Landsat-8卫星可见光波段和红外波段的实验，与经典方法进行了比较，验证了该方法的有效性。

1. 介绍

红外图像利用了红外线的物理特性，与光学图像相比，受夜间或恶劣天气条件的影响较小。在红外遥感图像的应用中，船舶检测是一个研究热点。早期的船舶检测算法主要是基于光学图像和合成孔径雷达图像。它们是在由粗到精的策略下设计的，并有一个海陆分割，其中它们的算法流程可以分为两个阶段。在第一个阶段，候选对象被提取，在第二个阶段，所有候选对象被重新识别，以获得最终结果。这些算法可以大致归纳为两类。一个是传统的方法[1-5]，这是过去几年来主要的方法，他们的方法使用手工设计的特性。另一种基于深度学习[6-10]，常用的是卷积神经网络(convolutional neural network, CNN)方法[11-13]。

目前，不同分辨率、不同模式下的多幅遥感影像联合解译在准确的影像分析中发挥着重要作用，有助于突破单一影像解译的局限。卫星携带多个传感器，从光学和红外光谱波段收集多分辨率数据已成为一种趋势。地球资源和地球资源卫星8号提供光学、近红外、短波红外和热红外影像，有不同的分辨率。如图1所示，landsat8的三幅不同分辨率的光学、近红外和热红外光谱波段的图像各有其对应的特点，相互补充。更具体地说，高分辨率的图像通常共享清晰和高频率的纹理，但同时，他们遭受更多的干扰背景，如岛屿，云，海浪。相反，低分辨率的图像可能有模糊的目标，但更平滑的背景。然而，上述的检测方法大多只利用单一来源和单一分辨率的图像，不能很好地利用已注册的多分辨率图像的全部信息。

在本文中，我们提出了一种新颖的端到端多分辨率输入CNN结构，称为多分辨率网络，旨在充分利用已注册的多分辨率图像。本文的主要贡献如下:

（1）传统的船舶检测方法每次只提取单一的输入图像，而我们的方法提取多种不同模式和分辨率的输入图像。设计了在统一框架下联合学习多源图像检测的多头网络结构。

（2）由于舰船目标在红外遥感影像中极为稀疏，我们在训练损失中引入了焦交叉熵损失[14]来处理这种极端的前-后级不平衡问题。利用最新的自然目标检测技术，如锚点[13]和分类与边界盒回归子网络[15]，我们的网络在没有海陆分割的情况下，对Landsat-8卫星图像的检测精度高于其他传统方法。

本文其余部分组织如下。第2节介绍了我们的方法框架。在第3节中，展示了实验结果和细节。结论见第四节。

2. 本文方法

2.1 多分辨率CNN框架

与传统的卷积层不同，我们在输入层中使用了多分辨率的卷积设计，不同分辨率的特征图被进一步连接，发送到后续的层。

我们的网络概述如图2所示。多分辨率输入层和随后的两层(这里的层通常仅指卷积层或全连接层)构成三层主干，起到特征提取器的作用。为了更好地捕捉多分辨率图像上的特征，多分辨率输入层由三种不同大小的内核组成，较大的内核大小对应较高分辨率的图像，反之亦然。主干的最后两层非常标准，比如有3x3个内核大小，然后是最大池化层和校正线性单元(ReLU)层。

同时，为了覆盖所有尺寸的船舶，我们利用CNN feature maps的金字塔结构，在主干的第二层和第三层卷积层分别设置了不同的锚和头。锚是一套各种尺寸和长宽比的参考箱。这两个头对应着不同的锚，但它们有着完全相同的结构。它们都由两个两层全卷积网络(FCNs)组成，一个用于分类，一个用于边界盒回归。唯一的不同是他们接受了不同比例的锚训练。

2.2 多分辨率输入和相应的网络结构

大多数检测方法一次处理一个分辨率的图像。假设有三种不同分辨率的图像。这些方法通常只操作这三种图像中的一种，或者在每一种图像上检测目标并简单地合并它们的结果。在此，我们提出了一个多分辨率的网络结构，以更好地结合注册多分辨率图像的信息。新的结构设置在我们网络的最开始，如图2所示。我们提出的新层有三种核尺寸，即××3、3、5、5和×7、7。每个内核只连接一个通道，每个通道只连接相同大小的内核（这个是和faster rcnn不太一样的地方，faster rcnn一般是三通道）。由于在高分辨率的图像中，不重要的纹理较多，同一目标占用的像素较多，因此我们选择较大尺寸的内核来匹配它们。然后，将不同大小的kernel得到的feature map拼接起来，成为池化后的第二个convolutional layer的输入。下面的卷积层保持了通用的风格，连接所有的输入通道，并分别使用相同大小的内核。表1列出了我们的多分辨率网络的部署。

该方法将三幅多分辨率图像同时发送到网络中，由于不同分辨率图像各有特点，相互补充，融合后生成的特征具有较强的表示能力。

2.3 损失函数

在我们的网络中，我们使用边界盒回归损失和目标-背景分类的焦点交叉熵损失。然后我们把它们加在一起，作为我们最后的多任务损失[14,15]。在船舶检测任务中，只有两个类:背景类和船舶类。假设Lreg和Lfl分别代表回归损失和局部分类损失。我们的船舶检测总损失可以写成

其中，i是头的索引，j是一个头的锚的索引。p ij()是一个二维向量，其中两个元素表示两个类的预测概率y（ij）是表示分类标签的一维二维向量，t ij()和uij()都是四维向量，分别表示预测的边界盒位置和真实的边界盒位置。我们使用了在[15]中使用的t ij()和duij()的标准化形式。y ij 0()和y ij 1()是y ij()的元素。因为y ij()是一个热向量，如果样本属于背景(第一个类)，则= y 1 ij 0()，反之亦然。λ是一个参数平衡的分类和回归全损的损失。= Iy {1} ij 1()是一个仅当= y1 ij 1()时才计入回归损失的指标。也就是说，我们使用所有的样本来计算分类损失，而只使用正样本来得到回归损失。

对于目标边界盒回归，我们使用了在[15]中给出的平滑L1损失，因为它比L2损失更健壮。那么L tu (，)reg是所有元素的ltu (，) predkk的和。

传统的目标检测方法通常使用标准的交叉损耗来进行目标-背景分类:

其中p0和p1是p的元素，它们之和为1。那么误分类的概率就形成了：

由于舰船目标在红外图像中非常稀疏，只占图像的很小一部分。因此，后台类和前台类的比例非常不平衡，甚至可以达到10:1 7。这种不平衡给训练检测网络带来了困难，因为容易出现的阴性往往占训练样本的比例过大。他们的个人损失相对较低，但一旦总结起来，就能压倒正面和负面的损失。所以我们用焦损来解决这个不平衡的问题。

在对网络学习能力进行重新分配的同时，还增加了聚焦损失和平衡参数两项：

γ是集中参数,α0和α1 importanceoftwoclasses调节。Notethatγshouldbepositiveandthesumofα0α1应该是。通过参数γ,普华永道是越低,普华永道越大γ与普华永道相比下降。这样，训练更注重硬否定和更重要的分类。

3. 实验结果与分析

3.1 实验数据和评价指标

我们使用Landsat-8卫星图像来验证我们的方法的有效性，其波段详见表2

利用热红外波段、近红外波段、短波红外波段和全色波段作为补充。由于近红外波段和短波长波段具有相同的分辨率，我们将这三幅图像平均为一幅单通道图像，并对两幅热红外图像进行相同的处理。这样算上全色图像，获取了我们的三通道输入，每个通道都有唯一的分辨率。实验中，有450个图像切片，大小为350350像素，其中一个图像切片指的是前面提到的多分辨率三通道图像。其中约70%为训练图像，其余为测试图像。在这些图像中标记的船舶目标的总和是116。由于样本太少，我们通过镜像和旋转图像来增加训练集。注意，如果船太小而不能达到6像素长，那么在计算结果时就不会考虑它。也就是说，对这些小型船舶的检测和误检不影响结果统计。

按照惯例，我们对检测方法进行定量评估的准确性和准确性。召回率和查准率越高，对应的检测方法越好。然而，在召回率和精确度之间往往存在权衡。因此，我们也使用传统的f -措施，以协调平均他们。它们的公式定义如下。