转载请注明出处
作为计算机视觉三大任务(图像分类、目标检测、图像分割)之一,图像分割已经在近些年里有了长足的发展。这项技术也被广泛地应用于无人驾驶领域中,比如用来识别可通行区域、车道线等。
全卷积网络(Fully Convolutional Networks,FCN)是UC Berkeley的Jonathan Long等人于2015年在Fully Convolutional Networks for Semantic Segmentation一文中提出的用于图像语义分割的一种框架。虽然已经有很多文章介绍这个框架,我还是希望在此整理一下自己的理解。
网络结构
整体的网络结构分为两个部分:全卷积部分和反卷积部分。其中全卷积部分借用了一些经典的CNN网络(如AlexNet,VGG,GoogLeNet等),并把最后的全连接层换成
卷积,用于提取特征,形成热点图;反卷积部分则是将小尺寸的热点图上采样得到原尺寸的语义分割图像。
FCN网络结构
输入和输出
网络的输入可以为任意尺寸的彩色图像;输出与输入尺寸相同,通道数为:n(目标类别数)+1(背景)。
全卷积
网络在CNN卷积部分不用全连接而是替换成
卷积的目的是允许输入的图片为超过某一尺寸的任意大小。
上采样 Upsampling
由于在卷积过程中,我们的heat map变得很小(比如长宽变为原图像的