U-Net: Convolutional Networks for Biomedical Image Segmentation是Olaf Ronneberger等人在全卷积网络(fully
convolutional network)的基础上的改进。
该文章一开始说明了对于医学图像等需要像素级标签预测(即语义分割)的任务。针对这种现象,Ciresan提出了一种 采用动态滑动窗口从原始图像中根据一定的滑动步长来获取patch,然后再将这些patch放到网络中训练。他们设计的网络可以定位,并且用来输入模型的patch远多于原始训练图像,赢得了ISBI 2012挑战。
接着作者说明了这个网络的不足:
1)因为模型对每个patch都会跑一遍,而且在得到的这些patch中,由于移动步长并不是一定patch的大小,所有patch之间存在着大量的冗余,这导致网络跑完比较慢
2)该网络不能很好的平衡 精准定位和有效使用上下文信息这两个方面。若为减少patch的数量,将patch取大一点,那么会需要更多的池化层,而池化是下采样,降低了图像的分辨率就不能很好的联系上下文信息。但patch太小,那么感受野也就小,这样就只能用到一点点上下文信息。
然后作者就引出了他们的网络模型,基于全连接的U-net模型。其结构图如下图所示:
该模型由一条(contracting path)收缩路径(下采样,常规的卷积网络)和(expansive path)扩展路径