2020首届海洋目标智能感知国际挑战赛冠军方案分享-CSDN博客

点击上方“CVer”，选择加"星标"置顶

重磅干货，第一时间送达

本文转载自：网络人工智能园地

作者：欧奕旻、左育莘、杨锐

赛事回顾

2020年12月22日由中国造船工程学会等单位主办，哈尔滨工程大学承办，武汉理工大学协办的首届“海洋目标智能感知国际挑战赛”落下帷幕。秉承 “逐梦海洋，感知智能，突破自我，创新未来”的精神，来自清华大学深圳国际研究生院的“秀姐和她快乐的小伙伴”队，由欧奕旻、左育莘和杨锐组成，在李秀教授的指导下从150支参赛队伍中脱颖而出，荣获研究生组冠军。

活动官方网站：

https://www.smartship.cn

https://www.hwtelcloud.com （NAIE网站）

选手分享

赛题描述

本次大赛要求参赛选手通过定位图片中出现目标的位置（边界框坐标），识别每个目标示例的类别和属于该类的置信度，从而完成多类海洋船舶目标检测识别任务。为了评估算法的实用性，比赛采用COCO形式的平均精度均值mAP，不仅可以评估模型的分类能力，也能体现出模型的定位能力。

模型介绍

本次比赛我们以Cascade RCNN作为baseline，以Res2Net101作为Backbone；通过逐步融合如soft-NMS、可变卷积(DCN)、多尺度训练(SNIP)等提升检测效果的方法，组成了最终的模型。

1. Baseline的选取

执行目标检测任务的双阶段算法一直在各大比赛中占据着半壁江山。CascadeRCNN通过级联多个RCNN head，逐步微调候选框位置，解决了训练阶段和测试阶段候选框的质量与分布不匹配问题。所以，为了保证检测效果，我们采用该算法作为baseline。

网络结构图图源|CascadeRCNN[1]

2. Backbone的选取

ResNet通过在每两层或三层之间增加短路机制、引入残差学习的方式解决了深度网络的退化问题。Res2Net网络则基于ResNet，在单个残差块内构造分层的残差类连接，增加了每个网络层的感受野范围，并实现了以更细粒度表示多尺度特征的功能。这种结构可以增加卷积网络学习的信息量，明显的提高模型的分类效果。在使用ResNet101做了对比实验后，我们选择Res2Net101作为backbone。

Res2Net残差结构图源|Res2Net[2]

提升技巧

比赛过程中，我们通过不断增加提升技巧的方式验证各种技巧的适用性。先以CascadeRCNN+ResNet101作为baseline，在公开测试集A上的mAP=64.68%，增加所有提升技巧之后在公开测试集A上的mAP=67.09%。

1. Albu数据增强

在计算机视觉任务中，数据增强是一种常用的增加模型鲁棒性的方法。Albumentation是一种快速灵活的数据增强库，我们采用该方法后，虽然mAP值降低了0.36%，但是我们认为这对结果基本没有影响，且会增加模型的泛化性能。

2. SNIP多尺度训练和多尺度测试

通过观察数据集，我们发现一些目标船舶占据的大部分，还有一些目标船舶非常小，这种极端尺度的目标在anchor机制中很难被分到前景中。多尺度训练和多尺度测试SNIP方法可以将图片缩放至不同的分辨率，使得目标以不同的比例出现在检测器中，从而实现大目标和小目标均可被检测到的功能。开始时我们就将该技巧使用在baseline中。

3. DCN

可变卷积网络(DCN)具有适应待检测目标发生空间形变的能力，能够根据需要识别的内容进行动态调整，从而改变感受野范围。采用该技巧之后，mAP值提升接近2%。

4. soft-NMS

从数据集中分析得知，一些图片中船舶与岛屿之间存在重叠，一些小型船只与巨轮之间也存在重叠，这种重叠的目标容易出现False Positive，从而对AP值产生影响，所以我们采取soft-NMS方法。这种方法可以通过降低重叠区域候选框的得分来避免盲目删除重叠候选框。

5.HTC模型预训练

HTC模型是一种引入了语义分割模块的的混合级联网络，因为语义分割是对全图进行的像素级分类，对前景和背景有较强分辨能力，所以HTC模型学习的参数更好。我们使用该网络在COCO数据集上预训练，然后将其部分参数迁移到我们的模型上。

另外，因为Adam优化算法可以较好的适应陌生数据集，我们使用它来做优化；我们还使用了学习率热身(warm-up)来稳定训练过程。

总结展望

非常感谢主办方提供的参赛机会，李秀教授的悉心指导，以及华为NAIE网络人工智能云服务提供的AI模型训练平台。本次比赛不仅提高了我们对目标检测算法的掌握程度，还增加了我们海洋船舶方面的知识。但是，我们的模型仍然存在较大的进步空间，比如在使用Albu数据增强时，也应该做一个对比实验进行验证。最后，希望智慧海洋技术快速发展，助力我国海洋强国的建设！

参考文献

[1] Cai Z, Vasconcelos N. Cascade R-CNN: delving into high quality object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 6154-6162.

[2] Gao S , Cheng M M , Zhao K , et al. Res2Net: A New Multi-scale Backbone Architecture[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, PP(99):1-1.

[3] Buslaev A, Iglovikov V I, Khvedchenya E, et al. Albumentations: fast and flexible image augmentations[J]. Information, 2020, 11(2): 125.

[4] Singh B, Davis L S. An analysis of scale invariance in object detection snip[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 3578-3587.

[5] Dai J , Qi H , Xiong Y , et al. Deformable Convolutional Networks[J]. 2017.

[6] Bodla N, Singh B, Chellappa R, et al. Improving object detection with one line of code. CoRR (2017)[J]. arXiv preprint arXiv:1704.04503.

CV资源下载

后台回复：CVPR2020，即可下载代码开源的论文合集

后台回复：ECCV2020，即可下载代码开源的论文合集

后台回复：YOLO，即可下载YOLOv4论文和代码

后台回复：Trasnformer综述，即可下载两个最新的视觉Transformer综述PDF，肝起来！

重磅！CVer-目标检测交流群成立

扫码添加CVer助手，可申请加入CVer-目标检测方向 微信交流群，也可申请加入CVer大群，细分方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、Transformer、PyTorch和TensorFlow等群。

一定要备注：研究方向+地点+学校/公司+昵称（如目标检测+上海+上交+卡卡），根据格式备注，才能通过且邀请进群