项目分享 | 基于昇思MindSpore AI框架的肾脏肿瘤分割一等奖[咸鱼]团队思路-CSDN博客

本文链接：https://blog.csdn.net/Kenji_Shinji/article/details/130889087

2022 CCF BDCI

第十届CCF大数据与计算智能大赛

第十届CCF大数据与计算智能大赛（2022 CCF BDCI）已圆满结束，大赛官方竞赛平台DataFountain（简称DF平台）将陆续释出各赛题获奖队伍的方案思路，欢迎广大数据科学家交流讨论。

本方案为【基于昇思MindSpore AI框架的肾脏肿瘤分割】赛题的一等奖获奖方案，赛题地址：http://go.datafountain.cn/3056（戳底部“阅读原文”可直达）

获奖团队简介

团队名称：咸鱼

团队成员：本团队由两名中国科学院计算技术研究所的硕士一年级学生组成。在选修研究生一年级的人工智能课时，受老师推荐参加此比赛。

所获奖项：一等奖

摘要

这个比赛是一个医学图像分割比赛，我们在比赛中采用了数据增强等方法，并创新性地提出了Res-U-Net模型，最后在训练时加入Lovasz-Softmax损失函数，使得模型在测试集上取得较好的训练效果。

关键词

语义分割，数据增强，ResNet，Lovasz-Softmax

1、引言

这个比赛的任务是深度学习中的语义分割任务。这是一个非常经典的深度学习任务，多年以来已经被研究得十分透彻。我们在参考前人的方法的同时，也创新性地提出了自己的方法，这些方法包括：

数据增强，我们采用了多种数据增强手段，并结合此次比赛的数据特点进行数据增强，提高了模型的泛化能力。
创新性地提出Res-U-Net模型，结合了U-Net的结构并充分利用了ResNet Block的优点，使得模型的训练和推理较为稳定。
采用了多种损失函数相结合的方法，使用带权重的交叉熵损失，并配合Locasz-Softmax损失进行训练。

最终我们的方法在验证集和测试集上都取得较好的效果。

2、数据集

这个比赛采用的训练集是kits19数据集[5]，测试集是比赛主办方的私有数据。这些数据集都是CT扫描的肾脏肿瘤数据。训练集一共有210个肾脏肿瘤病人的扫描结果，每一个病人的扫描结果包含约300张扫描图片。训练集一共被标注了3类，分别是背景类、肾脏、肾脏肿瘤。

我们在训练集的210个病人数据中随机选取30个病人数据作为验证集，剩下的180个病人数据作为训练集。

3、数据处理

注意到CT肾脏扫描的图像在时空上是连续的，即，每一张图像与前后图像都有紧密的时空联系。我们在训练时选取一张训练集图像的同时，也会选取这张训练集图像的前后各一张图像，并把它们拼接在一起。即，训练时采用的图像大小为512×512×3。

为提高模型的泛化能力，降低训练模型对于某些样本和属性的依赖，我们在训练数据读取时通过图像增强的方式产生更丰富的训练样本。我们通过图像的几何变换操作进行图像增强，变换方法包括随机旋转、随机翻转和随机裁剪，训练样本在加入到训练集前将依次通过以上方法进行增强。

3.1 随机旋转和随机翻转

图像的随机旋转和随机翻转是最常用的图像增强方法。我们对样本进行小幅度（-9°，9°）的均匀随机旋转，并依0.5的概率进行随机水平翻转。

3.2 随机裁剪

我们先对样本图像的4个边进行12像素的填充，即，把图像由512×512填充为536×536。然后对图像进行随机面积和随机长宽比裁剪。图像的∈∈随机面积裁剪比例的区间为(0.92,0.99)，即，Scrop/Spad∈(0.92,0.99)，其中Scrop表示裁剪图像的面积，Spad表示填充图像的面积。样本的随机长宽比范围为(0.96.1.04)，即，H/W∈(0.96.1.04)，其中H为图像的高，W为图像的宽。最后将裁剪后的图像缩放到512×512。

4、模型

我们提出的模型Res-U-Net如图4.1所示，这个模型的主要结构参考自Cortinhal 等人的工作[1]，其主干为经典的encoder-decoder结构。Res-U-Net的输入是一个512×512×3的图像，其中3是图像的通道数，512是图像的宽和高。输入图像经过的第一个层为Conv0卷积层，Conv0卷积层会初步学习图像的基础特征，并把图像的通道数扩展到32。紧随其后的是5层encoder，encoder在图4.1中表示为ResDownSample层。ResDownSample会对特征图进行下采样，下采样后特征图的宽度和高度都缩减为原来的1/2。与此同时，ResDownSample会学习特征图的特征并把其通道数扩展为原来的2倍。在encoder之后，对应的，一共有5层decoder，decoder在图4.1中被表示为UpSample和CatResBlock。UpSample层会对特征图进行上采样，上采样后特征图的宽度和高度会扩展为原来的2倍，通道数会缩减为原来的1/4。上采样后的特征图会与前面对应的ResDownSample层的输出进行拼接，这里的拼接参考了Ronneberger等人的工作[2]。在拼接前ResDownSample层的输出特征图会先通过一个1×1的Conv层进行通道数的缩减，这个通道数的缩减是为了确保后面的CatResBlock的输入特征图具有合理的通道数。CatResBlock会把输入的两个特征图进行拼接并学习其特征。

图4.1：Res-U-Net模型结构图

在经过5次UpSample后输出特征图的大小为512×512×16，这个特征图会与Conv0层的输出进行拼接，最后再经过一次卷积并输出512×512×3的特征图。

4.1 Conv0层

图4.2：Conv0层的结构

Conv0层的结构如图4.2所示，其由一个3×3 Conv，一个Batch Norm和一个Leaky ReLU层组成。3×3 Conv的stride = 1，在图中表示为s = 1，其卷积操作不改变特征图的宽和高。Conv0层的作用是初步提取图像的特征信息，为后面的特征提取打基础。

4.2 ResDownSample层

图4.3：ResDownSample层的结构

ResDownSample层的结构如图4.3所示，其结构参考了He等人的工作[3]。第1个卷积层是一个3×3 Conv，其stride = 2，目的是为了下采样，使图像的宽和高缩减为原来的1/2。其后接着的是Batch Norm、Leaky ReLU层。第2个卷积层的stride = 1，其不改变特征图的宽和高。输入特征图还会经过另一个stride = 2的卷积层，这个卷积层在He等人的工作[3]里被称为shortcut。经过shortcut后的特征图与经过第2个卷积层的特征图相加，随后再经过Leaky ReLU输出。

4.3 Connector层

图4.4：Connector层的结构

Connector层的结构如图4.4所示，其结构和Conv0层基本一致，只不过其卷积层的stride = 2，目的是为了对特征图进行下采样。

4.4 UpSample层

UpSample层采用的是PixelShuffle方法。PixelShuffle方法没有任何可学习的参数，它通过调换特征图的像素点顺序来进行上采样。例如：一个H x W x C的特征图经过PixelShuffle后会变成2H x 2W x C/4，其宽和高扩展为2倍，通道数缩减为原来的1/4。

4.5 CatResBlock层

图4.5：CatResBlock层的结构

CatResBlock层的结构如图4.5所示。其第一层为拼接层，目的是为了拼接前面对应的ResDownSample层的输出。后面几层依次为3×3 Conv、Batch Norm、Leaky ReLU、3×3 Conv和Batch Norm，输出的特征图与拼接的特征图相加后再通过Leaky ReLU层输出。

4.6 CatConv层

图4.6：CatConv层的结构

CatConv层的结构如图4.6所示。其第一层为拼接层，后面几层依次为3×3 Conv、Batch Norm和Leaky ReLU层。

5、损失函数

6 实验结果

致谢

感谢人工智能课的老师，推荐我们参加这个比赛，让我们有机会走上这个比赛的舞台。

参考

[1] Cortinhal, Tiago, George Tzelepis, and Eren Erdal Aksoy. "SalsaNext: Fast, uncertainty-aware semantic segmentation of LiDAR point clouds." International Symposium on Visual Computing. Springer, Cham, 2020.

[2] Ronneberger, Olaf, Philipp Fischer, and Thomas Brox. "U-net: Convolutional networks for biomedical image segmentation." International Conference on Medical image computing and computer-assisted intervention. Springer, Cham, 2015.

[3] He, Kaiming, et al. "Deep residual learning for image recognition." Proceedings of the IEEE conference on computer vision and pattern recognition. 2016.

[4] Berman, Maxim, Amal Rannen Triki, and Matthew B. Blaschko. "The lovász-softmax loss: A tractable surrogate for the optimization of the intersection-over-union measure in neural networks." Proceedings of the IEEE conference on computer vision and pattern recognition. 2018.

[5] Heller, Nicholas, et al. "The state of the art in kidney and kidney tumor segmentation in contrast-enhanced CT imaging: Results of the KiTS19 challenge." Medical image analysis 67 (2021): 101821.