今天总结了一下Unet网络,作为语义分割非常火爆的一篇论文,本文是作者写于2015年,论文链接https://arxiv.org/abs/1505.04597
Unet最初提出的初衷是为了解决医学图像分割问题,在模型结构上采用了U型设计
这个结构就是先对图片进行卷积和池化,在Unet论文中是池化4次,比方说一开始的图片是224x224的,然后下采样形成112x112,56x56,28x28,14x14四个不同尺寸的特征。然后我们对14x14的特征图做上采样,得到28x28的特征图,这个28x28的特征图与之前的28x28的特征图进行通道的拼接concat,然后再对拼接之后的特征图做卷积和上采样,得到56x56的特征图,再与之前的56x56的特征拼接,卷积,再上采样,经过四次上采样可以得到一个与输入图像尺寸相同的224x224,再对该图像根据类型进行1*1卷积生成类别数的heatmap然后作为softmax函数的输入,算出概率比较大的softmax,然后再进行loss,反向传播计算。
与FCN不同的是Unet融合多尺度信息通过对于通道数的叠加的concat方法,而FCN是点的相加的add方法。
Unet相对于FCN的优点在于5个pooling layer实现了网络对图像特征的多尺度特征识别,而且Unet在上采