本文代码公布在以下仓库:
https://github.com/VitaminyW/classfier_for_LT_Openship
PS:有需要解答的代码问题可以评论或私信。
一、介绍
随着Sentinel-1合成孔径雷达(SAR)数据的快速增长,如何利用Sentinel-1图像并实现有效和稳健的海洋监视是至关重要的问题[1]。最近,深度学习在计算机视觉领域应用逐渐广泛,如图像分类[2,3],目标检测[4,5]等。通过将SAR数据与深度学习在计算机视觉的工作相结合,可以帮助我们更简单地实现海洋监控。本文旨在通过将SAR数据转化为图像文件,并利用深度学习对OpenSARShip中的不同船舶进行分类,以帮助实现海洋监控。值得注意的是,本文所用数据集中各个类别的船舶数量极其不均匀,占比最大的货船包含8240张样本,而占比最小的只有2张样本。从总体上看,各个类别的样本数呈现LTD现象[1],如下图所示。
图1. 长尾分布数据类别数量展示
当使用LTD数据进行学习时,一个常见的挑战是样本数大的(或头部)类主导了训练过程。学习的分类模型往往在这些类上表现得更好,而对于样本数稀缺类(或尾部类)的表现则明显更差。为了实现在LTD数据上更好地实现船舶分类问题,本文提出了结合ResNet的预训练参数以及样本均匀采样的解决方案。
二、方法
由于本文使用的Mini-OpenSARShip数据集样本数量较少,若通过该数据集进行图像特征表示学习,可能不能获得较好的特征表示,本文受迁移学习[6]启发,利用在ImageNet这一大规模数据集上训练的Resnet模型作为表示任务的模型,并在Mini-OpenSARShip上训练分类器,值得注意地是,在训练过程中为了避免分类器对头部类别过拟合,本文使用了样本均衡采样方法对数据进行重采样,即每个样本被采样的概率为1C,其中C为类别数。
2.1 Resnet
ResNet[3]是2016年He等人在ISLVRC和COCO上提出的网络,该模型有效的解决了伴随深度的增加,网络的性能却不再增加,甚至出现下降的问题,ResNet在模型中巧妙地加入残差连接这一方式,使得深层网络拥有比浅层网络更好的性能。
残差学习的概念主要是提出了一个残差网络块,如图2所示,假设原先某个神经网络输入x,原本期望输出H(x),如果将x直接从输入连接到输出,此时学习目标为发生改变,变为两者的残差,即为F(x)=H(x)-x,图中两个权重学习到的是原网络块结果与输入特征的差值。
采用残差连接的好处在于残差学习所学习的内容更少,相比原始需要学习整张图像来说更简单。同时,残差学习保证了网络的性能只会有所提升而不会收到损失,因为即使残差学习到内容为零,此时相当于卷积层之间进行恒等映射,对网络性能没有影响,而残差学习到的内容不为零时,网络就从中学习到了新的内容,有助于网络性能的提升。
图2. 残差模块
本文采用的是ResNet50的结构,在特征提取的结构中,为卷积块和恒等块这两个基本的块构成了特征提取部分,其中恒等块用于处理输入和输出维度相同时的网络,主要的作用是加深网络,如图3所示;卷积块主要用于处理输入与输出不相同时的网络,残差边上的卷积层能够实现这一点,它的作用是改变网络的维度,如图4。
图3. 恒等块 图4. 卷积块
ResNet50总体结构如图5所示,以输入图片600×600为例,首先经过零填充避免图像边缘信息损失,然后经过步长为2的卷积,数据标准化,激活函数层增加非线性和最大池化层降采样后,分别经过卷积块和2、3、5次恒等块。
图5 ResNet50特征尺寸图
2.2 类别均衡采样策略
为了避免学习分类决策边界时,模型对头部类别过拟合,尾部类别欠拟合,本文使用了类别均衡采样策略加载数据,即首先对类别进行均匀采样,再在所采类别中均匀采样一个样本,反复重复进行训练。
三、后续可优化方案
通过将LTD识别任务解耦为表示学习与决策边界学习任务,利用在ImageNet数据集中训练好的ResNet作为图像表示提取器,并结合类别样本均匀采样策略对决策边界进行学习,能够在测试集上达到56.28%的准确度。但由于OpenSARShip本身图像与ImageNet中的自然图像差别较大,若只冻结ResNet中提取底层特征的网络层,并添加表示学习的训练,可能该方法能达到更好的表现。
参考文献:
[1] Huang L, Liu B, Li B, et al. OpenSARShip: A dataset dedicated to Sentinel-1 ship interpretation[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2017, 11(1): 195-208.
[2] Sellami A, Tabbone S. Deep neural networks-based relevant latent representation learning for hyperspectral image classification[J]. Pattern Recognition, 2022, 121: 108224.
[3] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 770-778.
[4] Wang C Y, Bochkovskiy A, Liao H Y M. Scaled-yolov4: Scaling cross stage partial network[C]//Proceedings of the IEEE/cvf conference on computer vision and pattern recognition. 2021: 13029-13038.
[5] Sun P, Zhang R, Jiang Y, et al. Sparse r-cnn: End-to-end object detection with learnable proposals[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2021: 14454-14463.
[6] Pan S J, Yang Q. A survey on transfer learning[J]. IEEE Transactions on knowledge and data engineering, 2010, 22(10): 1345-1359.