Attention-Driven Deep Learning for Pathological Spine Segmentation
使用了两个网络,一个脊骨分割网络,一个脊柱定位网络。
脊柱定位网络
网络结构见下图。
一张 2D 的脊椎侧面图 patch160*160,扩大到(padded to)720*720 作为输入,经过网络后 得到 10*10 的 map。Map 中的每个值属于[0,1],且与原 patch 中的一个 16*16 区域相关,代 表该区域中骨骼的 voxel 所占的比例。
Ground Truth从分割的 Ground Truth 中得到。每个 patch 会使用一个 16*16kernel 降采样, 得到 10*10 的 ground truth。其中每一个 voxel 也都代表着原图中骨骼的 voxel 所占的比例。 经过训练后,最后将预测的 10*10 网络上采样到原始大小 160*160。图中 一个个不同颜色的小正方形就是 10*10 图中的一个 voxel,颜色代表脊骨所占比例的大小。
脊骨分割网络
使用3D U-Net。
如果只使用分割网络,作者发现会将其他的区域给分割出来,见图一圈出来的那一块骨头。而加入脊骨定位网络(也就是 attention net)就可以解决这个问题。这也是这篇文章主要解决的问题。