目录
1. 运算步骤(s为步长,p为padding,k为卷积核尺寸)
语义分割
语义分割(semantic segmentation),对每个像素进行分类;区别于实例分割和全景分割。
1. 常见数据集格式
- PASCAL VOC:调色板(PNG图片,P模式,palette),边缘为255,损失计算过程忽略255
- MS COCO:针对图像中的每一个目标都记录了多边形坐标(polygons)
- 分割结果:mask蒙版,每个像素数值对应类别索引
2. 常见语义分割评价指标
- Pixel Accuracy(Global Acc):总共预测正确的像素个数 / 目标的总像素个数
- mena Accuracy:每个目标的Acc,然后目标求均值
- mean IoU:每个目标的IoU再求平均(常用,如下图所示)
转置卷积
💡 Transposed Convolution,转置卷积,并不是卷积的逆运算,主要用于upsampling。图像分割和图像生成等任务需要图像恢复到原尺寸,这个将图像由小分辨率映射到大分辨率的尺寸恢复操作,叫做上采样。(待补充图像处理中常用的上采样操作,eg:最近邻插值、线性插值、双线性插值、双三次插值)
1. 运算步骤(s为步长,p为padding,k为卷积核尺寸)
-
在输入特征图元素间填充s-1行,0列
-
在输入特征图四周填充k-p-1行,0列
-
将卷积核参数上下、左右翻转
-
做正常卷积运算(padding0,stride1)
转置卷积操作后特征图的大小可以通过如下公式计算:
其中stride[0]表示高度方向的stride,padding[0]表示高度方向的padding,kernel_size[0]表示高度方向的kernel_size,索引[1]都表示宽度方向上的。通过上面公式可以看出padding越大,输出的特征矩阵高、宽越小,你可以理解为正向卷积过程中进行了padding然后得到了特征图,现在使用转置卷积还原到原来高、宽后要把之前的padding减掉。
原文链接:https://blog.csdn.net/qq_37541097/article/details/120709865
2. 优势以及不足
- 与传统的上采样方法相比,转置卷积具有可学习的参数,上采样方式并非预设的插值方法。可通过网络来获取最优的上采样方式
- 应用场景:
- 图像生成任务DCGAN中,生成器将随机输入变成一个全尺寸图片,这里用到了转置卷积
- 语义分割中,解码器中使用转置卷积,eg:FCN、UNet
- CNN可视化,通过转置卷积将CNN的特征图还原到像素空间,以观察特定特征图对哪些模式的图像敏感
- 但是,转置卷积会导致生成图像中出现网格/棋盘效应(checkerboard artifacts)
膨胀卷积
💡 Diated convolution又叫做空洞卷积,在保持卷积参数量不变的情况下:①增大卷积感受野;②保持原输入特征图长和宽不改变。
举个例子:VGG网络中,maxpooling下采样倍率太大,丢失了细节信息,但去掉maxpooling层的话(pooling操作不可逆),导致特征图对应原图感受野减小,无法重构小的物体图像。因此引入膨胀卷积。当然将普通的卷积stride步长设为大于1,也会达到增加感受野的效果,但是stride大于1就会导致downsampling,图像尺寸变小(在先减小再增大尺寸的过程中,有一些信息损失掉)
1. Gridding Effect网格效应
- 💡 解决办法:Hybrid Dilated Convolution (HDC) (类似于卷积设计的标准化)
- 叠加卷积的膨胀银子不能有大于1的公约数,eg:[2,4,6]会出现gridding effect
- 膨胀因子应设计成锯齿状结构,eg:[1,2,5,1,2,5]
- 最大膨胀因子应满足公式:
2. 小目标分割效果差
仅采用大 dilation rate 的信息或许只对一些大物体分割有效果,而对小物体来说可能则有弊无利了。锯齿状本身的性质就比较好的来同时满足小物体大物体的分割要求(小 dilation rate 来关心近距离信息,大 dilation rate 来关心远距离信息)。
3. 膨胀卷积的一些特点
- 膨胀卷积与普通卷积的相同点在于:卷积核的大小是一样的,在神经网络中即参数数量不变,区别在于膨胀卷积具有更大的感受野。
- 对比传统的conv操作,3层3x3的卷积加起来,stride为1的话,只能达到(kernel-1)*layer+1=7的感受野,也就是和层数layer成线性关系,而dilated conv的感受野是指数级的增长。
- 适用情况:在图像需要全局信息、语音文本需要较长的sequence信息依赖的问题中,都能很好的应用dilated conv。
FCN
💡 (CVPR 2015)首个端到端的针对图像分割(像素级预测)的全卷积网络。主要将分类网络中的全连接层替换成卷积层。地位类比于目标检测中的Faster R-CNN。
原文链接:Fully Convolutional Networks for Semantic Segmentation
1. 主要贡献
- 解决了输入大小尺寸限制问题(全连接层要求输入节点个数是固定的,所以分类网络中输入图片大小也是固定的,虽然后来有使用全局池化层来解决这个问题)
- 开创了语义分割的先河,实现了像素级别的分类预测(端到端)
- 技术上:全连接卷积化、跳跃连接、反卷积