在FCN同一年出来的语义分割网络中,有一个重量级的网络:UNet。UNet以其网络结构形状得名。从UNet出来之后,很多图像分割网络都是在上面进行各种魔改。这样说明了UNet的重要性和可扩展性。
UNet刚出来的论文是说UNet主要针对于生物,医学的数字显微镜成像的图像。而医学显微图像的特征是相对比较规整,但是对分割的精细度(特别是边界的分割)要求很高,我自己的理解是对其每个部分的语义(也就是分类)的准确率反倒是不那么的高,当然如果能判断的很准是最好。
所以UNet在提出了U型结构的Encoder-Decocder模型之外,还提出了对图像训练时的新的方法。因为在医学领域,高质量的标签是非常难得到的,特别是分割标签。因为普通的图像,比如PASCAL数据集中的各种类别,只要能找到足够的普通人,一般都能制作出标签来。但是医学图像,没有丰富的医学知识是无法保证标签的正确性的。所以,高质量的医学分割标签是非常珍贵的,所以就要求这样的分割模型能使用较小规模的训练集达到比较高的准确率和泛化性。
所以论文中提到的论文Deep neural networks segment neuronal membranes in electron microscopy images是采用的patches的采样方法(上一篇FCN的时候提到过),这样就可以增加训练数据量。the training data in terms of patches is much larger than the number of training images.
但是,这种方法中有两个缺点,第一个是慢,第二个是因为网络中有很多max-pooling,在空间上做了降维,损失了很多空间信息。所以UNet论文作者认为这样会导致