论文地址:A multi-scale pyramid of 3D fully convolutional networks for abdominal multi-organ segmentation
这是今年发在MICCAI2018上的一篇对于3D FCNs进行改进从而进行腹部多器官分割的文章
作者在这篇文章中使用scale-space pyramid和auto-context改进3D FCNs的多尺度融合
1、首先scale-space pyramid其实就是一个尺度金字塔,本文中通过对原图像进行多次下采样降低分辨率来实现金字塔,第一次下采样尺度ds1 = 2S,第二次下采样尺度ds2 = ds1/2,本文中的S设为2,也就是ds1=4,ds2=2,假设原图X*C*V分辨率,则做第一ds1下采样得到的分辨率为(X/ds1)*(C/ds1)*(V/ds1),在本文中就是(X/4)*(C/4)*(V/4),第二次下采样得到的分辨率为(X/2)*(C/2)*(V/2)
2、auto-context思想其实就是对于之前得到的分割结果融合到数据集中,然后再进行迭代,详见auto-context
在本文中其实就是把前一个3D u-net的输出融合到下一个3D u-net的输入中,然后进行一次迭代
3、我理解的这个网络训练过程如下,原数据为(X,Y),首先是第一次下采样,也就是ds1=4的时候这时候数据为(X1,Y1),这时候的分辨率最小,使用X1输入到第一个3D U-net网络中,输出为Z,然后使用Y1计算dice loss1,然后对X进行第二次下采样ds2=2的时候得到数据为(X2,Y2),然后将Z进行两倍上采样和crop之后,和X2进行concatenate得到U,然后将U放到输入到第二个3D u-net网络中,最后使用Y2计算dice loss2,最后的总dice loss=dice loss1+dice loss2,然后使用梯度下降对这两个网络同时进行更新训练
4、本文虽然题目是FCNs但是实现使用的网络是3D U-net,也就是一共有两个3D u-net网络,第一个网络用来进行低分辨率的粗估计,第二个网络进行高分辨率的细致估计,第二个网络的输入用到的第一个网络的输出
5、dice loss定义如下
K为分类类别数,p为预测图像,l为Ground Truth,i为每个voxel
6、本文训练过程中,并不是整个CT图像直接放到网络中训练,而是进行随机切片为64*64*64的像素大小作为输入放到网络中,所以网络的输入输出大小都固定为64*64*64