2022 CCF BDCI
第十届CCF大数据与计算智能大赛
第十届CCF大数据与计算智能大赛(2022 CCF BDCI)已圆满结束,大赛官方竞赛平台DataFountain(简称DF平台)将陆续释出各赛题获奖队伍的方案思路,欢迎广大数据科学家交流讨论。
本方案为【基于昇思MindSpore AI框架的肾脏肿瘤分割】赛题的一等奖获奖方案,赛题地址:http://go.datafountain.cn/3056(戳底部“阅读原文”可直达)
获奖团队简介
团队名称:咸鱼
团队成员:本团队由两名中国科学院计算技术研究所的硕士一年级学生组成。在选修研究生一年级的人工智能课时,受老师推荐参加此比赛。
所获奖项:一等奖
摘要
这个比赛是一个医学图像分割比赛,我们在比赛中采用了数据增强等方法,并创新性地提出了Res-U-Net模型,最后在训练时加入Lovasz-Softmax损失函数,使得模型在测试集上取得较好的训练效果。
关键词
语义分割,数据增强,ResNet,Lovasz-Softmax
1、引言
这个比赛的任务是深度学习中的语义分割任务。这是一个非常经典的深度学习任务,多年以来已经被研究得十分透彻。我们在参考前人的方法的同时,也创新性地提出了自己的方法,这些方法包括:
-
数据增强,我们采用了多种数据增强手段,并结合此次比赛的数据特点进行数据增强,提高了模型的泛化能力。
-
创新性地提出Res-U-Net模型,结合了U-Net的结构并充分利用了ResNet Block的优点,使得模型的训练和推理较为稳定。
-
采用了多种损失函数相结合的方法,使用带权重的交叉熵损失,并配合Locasz-Softmax损失进行训练。
最终我们的方法在验证集和测试集上都取得较好的效果。
2、数据集
这个比赛采用的训练集是kits19数据集[5],测试集是比赛主办方的私有数据。这些数据集都是CT扫描的肾脏肿瘤数据。训练集一共有210个肾脏肿瘤病人的扫描结果,每一个病人的扫描结果包含约300张扫描图片。训练集一共被标注了3类,分别是背景类、肾脏、肾脏肿瘤。
我们在训练集的210个病人数据中随机选取30个病人数据作为验证集,剩下的180个病人数据作为训练集。
3、数据处理
注意到CT肾脏扫描的图像在时空上是连续的,即,每一张图像与前后图像都有紧密的时空联系。我们在训练时选取一张训练集图像的同时,也会选取这张训练集图像的前后各一张图像,并把它们拼接在一起。即,训练时采用的图像大小为512×512×3。
为提高模型的泛化能力,降低训练模型对于某些样本和属性的依赖,我们在训练数据读取时通过图像增强的方式产生更丰富的训练样本。我们通过图像的几何变换操作进行图像增强,变换方法包括随机旋转、随机翻转和随机裁剪,训练样本在加入到训练集前将依次通过以上方法进行增强。
3.1 随机旋转和随机翻转
图像的随机旋转和随机翻转是最常用的图像增强方法。我们对样本进行小幅度(-9°,9°)的均匀随机旋转,并依0.5的概率进行随机水平翻转。
3.2 随机裁剪
我们先对样本图像的4个边进行12像素的填充,即,把图像由512×512填充为536×536。然后对图像进行随机面积和随机长宽比裁剪。图像的∈∈随机面积裁剪比例的区间为(0.92,0.99),即,Scrop/Spad∈(0.92,0.99),其中Scrop表示裁剪图像的面积,Spad表示填充图像的面积。样本的随机长宽比范围为(0.96.1.04),即,H/W∈(0.96.1.04),其中H为图像的高,W为图像的宽。最后将裁剪后的图像缩放到512×512。
4、模型
我们提出的模型Res-U-Net如图4.1所示,这个模型的主要结构参考自Cortinhal 等人的工作[1],其主干为经典的encoder-decoder结构。Res-U-Net的输入是一个512×512×3的图像,其中3是图像的通道数,512是图像的宽和高。输入图像经过的第一个层为Conv0卷积层,Conv0卷积层会初步学习图像的基础特征,并把图像的通道数扩展到32。紧随其后的是5层encoder,encoder在图4.1中表示为ResDownSample层。ResDownSample会对特征图进行下采样,下采样后特征图的宽度和高度都缩减为原来的1/2。与此同时,ResDownSample会学习特征图的特征并把其通道数扩展为原来的2倍。在encoder之后,对应的,一共有5层decoder,decoder在图4.1中被表示为UpSample和CatResBlock。UpSample层会对特征图进行上采样,上采样后特征图的宽度和高度会扩展为原来的2倍,通道数会缩减为原来的1/4。上采样后的特征图会与前面对应的ResDownSample层的输出进行拼接,这里的拼接参考了Ronneberger等人的工作[2]。在拼接前ResDownSample层的输出特征图会先通过一个1×1的Conv层进行通道数的缩减,这个通道数的缩减是为了确保后面的CatResBlock的输入特征图具有合理的通道数。CatResBlock会把输入的两个特征图进行拼接并学习其特征。
图4.1:Res-U-Net模型结构图
在经过5次UpSample后输出特征图的大小为512×512×16,这个特征图会与Conv0层的输出进行拼接,最后再经过一次卷积并输出512×512×3的特征图。
4.1 Conv0层
图4.2:Conv0层的结构
Conv0层的结构如图4.2所示,其由一个3×3 Conv,一个Batch Norm和一个Leaky ReLU层组成。3×3 Conv的stride = 1,在图中表示为s = 1,其卷积操作不改变特征图的宽和高。Conv0层的作用是初步提取图像的特征信息,为后面的特征提取打基础。
4.2 ResDownSample层
图4.3:ResDownSample层的结构
ResDownSample层的结构如图4.3所示,其结构参考了He等人的工作[3]。第1个卷积层是一个3×3 Conv,其stride = 2,目的是为了下采样,使图像的宽和高缩减为原来的1/2。其后接着的是Batch Norm、Leaky ReLU层。第2个卷积层的stride = 1,其不改变特征图的宽和高。输入特征图还会经过另一个stride = 2的卷积层,这个卷积层在He等人的工作[3]里被称为shortcut。经过shortcut后的特征图与经过第2个卷积层的特征图相加,随后再经过Leaky ReLU输出。
4.3 Connector层
图4.4:Connector层的结构
Connector层的结构如图4.4所示,其结构和Conv0层基本一致,只不过其卷积层的stride = 2,目的是为了对特征图进行下采样。
4.4 UpSample层
UpSample层采用的是PixelShuffle方法。PixelShuffle方法没有任何可学习的参数,它通过调换特征图的像素点顺序来进行上采样。例如:一个H x W x C的特征图经过PixelShuffle后会变成2H x 2W x C/4,其宽和高扩展为2倍,通道数缩减为原来的1/4。
4.5 CatResBlock层
图4.5:CatResBlock层的结构
CatResBlock层的结构如图4.5所示。其第一层为拼接层,目的是为了拼接前面对应的ResDownSample层的输出。后面几层依次为3×3 Conv、Batch Norm、Leaky ReLU、3×3 Conv和Batch Norm,输出的特征图与拼接的特征图相加后再通过Leaky ReLU层输出。
4.6 CatConv层
图4.6:CatConv层的结构
CatConv层的结构如图4.6所示。其第一层为拼接层,后面几层依次为3×3 Conv、Batch Norm和Leaky ReLU层 。
5、损失函数
6 实验结果
致谢
感谢人工智能课的老师,推荐我们参加这个比赛,让我们有机会走上这个比赛的舞台。
参考
[1] Cortinhal, Tiago, George Tzelepis, and Eren Erdal Aksoy. "SalsaNext: Fast, uncertainty-aware semantic segmentation of LiDAR point clouds." International Symposium on Visual Computing. Springer, Cham, 2020.
[2] Ronneberger, Olaf, Philipp Fischer, and Thomas Brox. "U-net: Convolutional networks for biomedical image segmentation." International Conference on Medical image computing and computer-assisted intervention. Springer, Cham, 2015.
[3] He, Kaiming, et al. "Deep residual learning for image recognition." Proceedings of the IEEE conference on computer vision and pattern recognition. 2016.
[4] Berman, Maxim, Amal Rannen Triki, and Matthew B. Blaschko. "The lovász-softmax loss: A tractable surrogate for the optimization of the intersection-over-union measure in neural networks." Proceedings of the IEEE conference on computer vision and pattern recognition. 2018.
[5] Heller, Nicholas, et al. "The state of the art in kidney and kidney tumor segmentation in contrast-enhanced CT imaging: Results of the KiTS19 challenge." Medical image analysis 67 (2021): 101821.