上周在某大厂医疗AI组的一面刚被问到这个问题。我开门见山,先上结论:3D UNet不一定优于2D UNet。科学里面没有绝对的结论,但凡说A一定好于B,需要说明的是在什么样的情况下好于,也就是需要控制住变量。我在回答结尾会引用一篇论文,来支持3D UNet不一定优于2D UNet。下面我将先从三个角度,谈谈3D和2D的区别。
1.从数据格式角度,3D数据和2D数据的不同是,多了一个方向的信息。2D数据的表达为(x,y),3D数据的表达为(x,y,z)。医疗影像的大部分数据都是3D的,也就是多层slice叠加而成的。但是由于z轴上的像素间距(pixel spacing)不同,3D的数据也被为薄层数据和厚层数据。薄层数据层厚较薄,所以z轴slice数比较多,比如眼底OCT图片的z轴slice数为128层(可视化效果);厚层数据的层厚比较厚,z轴slice数就相对较少,比如脑平扫CT一般层厚为5mm,z轴slice数在20-40层不等。这样显而易见,薄层的数据相较于厚层数据,在z轴方向的信息更加丰富。
2.从模型角度,3D卷积可以对3D数据从(x,y,z)三个方向上进行编码,而2D卷积只能对3D数据从(x,y)两个方向进行编码,这是3D卷积的优点。一般来讲,3D卷积的参数量更大,所以我们常用的3D-UNet都不是像2D-UNet那样降采样16倍,而是降采样8倍。但是由于数据量和模型参数量的匹配问题,3DUNet可能需要更多的数据去训练,否则可能会导致过拟合(over-fitting)。
3D卷积和2D卷积的演示图(图片来源)
3.从问题背景角度,考虑临床影像特征。举两个例子&#