亚马逊云科技 AI For Good-2022优秀方案开源分享——望楼

亚马逊云开发者

于 2022-10-27 19:28:11 发布

阅读量244

点赞数

文章标签：算法网络机器学习人工智能深度学习

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg4NjU5NDUxNg==&mid=2247530137&idx=1&sn=acec866cb0e99ae95ebfc70550fb58da&chksm=cf957822f8e2f134d7794e712033e87cd0baff424701de54a8fcb09ec67087a415eb5b9c327f&scene=126&&sessionid=0

版权

在刚刚结束的【亚马逊云科技 AI For Good-2022 遥感光学影像目标检测挑战赛】中，望楼团队斩获了第1名的优异成绩，本次赛事聚焦遥感光学目标检测，存在图像尺寸大、目标角度各异等诸多难点，挑战难度高。为此，望楼团队为我们分享了他们在比赛中采用的算法策略与开发体验。

团队介绍

望楼团队成员包括：来自东南大学的马云飞和来自中国科学院自动化研究所的苏一飞。

算法策略

望楼团队：遥感图像目标检测是遥感智能解译的关键技术，在智慧交通、城市规划、国遥感图像目标检测是遥感智能解译的关键技术，在智慧交通、城市规划、国土监测等领域有着重要应用。由于遥感图像的目标和成像平台的特点，其具有目标尺寸差异大、目标分布密集和目标角度变化大等难点。针对这些问题我们的解决方案是使用先进的旋转目标检测方案作为基线以缓解上述问题、并在数据增强、骨干网络和网络结构方面进行一些针对性改进。

我们使用 DOTA 数据集具有单张图像分辨率高的特点，我们采用了遥感领域常用的裁剪方式，将大分辨率图像裁剪为1024*1024像素的小图像输入网络后合并输出结果。此外，我们还采用了遥感目标检测领域常用的数据增强方式，包括多尺度训练（以0.5、1.0、1.5的比例缩放图像并进行训练）、随机翻转（以各25%的概率在水平、垂直和对角线方向进行翻转和随机角度旋转）和输入图像标准化。

多尺度划分

数据增强

望楼团队：在核心算法方面，在经过不同算法实验比较之后，我们选择现阶段比较先进的两阶段旋转目标检测算法 OrientedRCNN 作为我们的基线算法，它是一种通用的两阶段检测器，达成了较好的速度-精度平衡。在骨干网络选择方面我们通过实验选择了 VAN 作为骨干网络，其通过大卷积核的思想实现构建长程建模能力的注意力通道这一想法，又通过将一个大核卷积分解成一个局部空间卷积、一个空间长程卷积、一个通道卷积的堆叠代替大卷积核以降低骨干网络的参数量和训练难度。

VAN 中的卷积分解

开发体验

本次赛事中，望楼团队决赛使用了 Amazon Sagemaker 进行算法模型搭建及训练。

望楼团队：Sagemaker 功能丰富，集数据处理、模型训练、模型推理、云端部署等功能于一体，可以帮助机器学习开发者完成“一站式”的快速构建、训练和部署模型；同时，Sagemaker 提供了方便易用的集成开发环境，包括笔记本、Studio 和 Studio Lab 等等，可以方便的创建模型、管理模型、试验调试以及测试评估；更重要的是，Sagemaker 系统资源丰富，不仅提供了不同层次、不同性能的加速计算服务器，同时，也集成了 TensorFlow, PyTorch, Apache MXNet, Chainer 等多种深度学习框架，省时省力；Sagemaker 还提供了丰富的教程文档，易用性较好。

训练流程

在控制面板中创建笔记本实例进行训练。创建实例为 ml.g5.12xlarge 类型，包含4张 NVIDIA A10G 显卡，内存为 192G。笔记本成功创建的界面如下：

该笔记本实例的具体信息如下：

然后将本队代码和 DOTA-2.0 数据上传到服务器中进行训练，并记录训练过程的 log 信息。

首先将本作品的代码上传到 JupyterLab 中，其代码工程结构如下图所示：

随后在创建 notebook 进行训练，如下所示：

训练过程中的日志信息如下所示。左侧为 Sagemaker 笔记本实例中特有的示例 notebook 和介绍 notebook。

训练过程中的 GPU 使用情况如下：

训练过程中输出日志的具体形式如下：

望楼团队：总结这次参赛经历，在替换大卷积核思想构成的骨干网络、进行数据增强和多尺度训练后网络都得到了一定的性能提升。希望在未来，我们的能够继续优化算法，实现高效能的遥感图像处理。

本次亚马逊云科技 AI For Good-2022 遥感光学影像目标检测挑战赛赛题难度较大，望楼团队以 Oriented-RCNN 为基线算法，达到了目标检测算法速度-精度的平衡，同时 Amazon Sagemaker 也为模型提供了良好的训练环境，希望望楼团队的算法策略能够为广大开发者提供有益启发。