DAY-12 图片语义分割深度学习算法
原文连接:https://bbs.cvmart.net/articles/150
-
PASCAL VOC 数据集(2012)是常用于目标检测与图像分割的数据集
训练集与验证集有超过11k张图片,而测试集有10张
图像分割使用平均交并比(mLoU)评估模型算法的性能
-
PASCAL-Context 数据集(2014)是PASCAL VOC 数据集(2010)的扩展
包括了10k张训练图片,10k张验证图片,以及10k张测试图片。新版数据集的特别之处在于整个情景被分成超过400个分类
评估标准仍然是mloU
-
COntext中的常见物体(COCO)
用于物体分割的COCO数据集由超过200k个图像组成,具有超过500k个对象实例被分割
指标:平均精度(AP)和平均召回(AR)均使用联合交叉(IoU)
-
Cityscapes数据集
包含来自50个城市的复杂的城市场景分割图。 它由23.5k张图像组成,用于训练和验证(详细和粗略的注释)和1.5个图像用于测试(仅详细注释)
-
FCN
以任意尺寸的图像作为输入,并生成具有相同尺寸的分割图像
-
ParseNet
第一步使用模型生成特征图,用池化层把这些特征图缩减为单个全局特征向量。使用L2欧几里德范数对该全局向量进行归一化,并且将其unpool(输出是输入的扩展版本)以生成具有与初始尺寸相同的新特征图。第二步使用L2欧几里德范数对整个初始特征图进行归一化。最后一步是连接前两个步骤生成的特征图。归一化有助于对连接的特征图的值进行缩放,从而获得更好的性能
-
卷积与反卷积
-
U-Net
由两部分组成:计算生成特征的收缩部分,以及在图片上空间定位特征模式的扩展部分
下采样或者说收缩部分有一个类FCN的架构,用3x3的卷积核来提取特征。而上采样或者扩展部分则时通过用上卷积(或反卷积)来减少特征图的数量但是增加了特征图的高和宽
最后,再使用1x1的卷积核做一次卷积产生一张分割图,也就得到了输入图像中每个像素的分类情况
-
特征金字塔网络(FPN)
其架构由自下而上的通道,自上而下的通道横向连接组成,以便连接低分辨率和高分辨率的特征
每组具有相同大小的特征图称为一个阶段,每个阶段的最后一层的输出是用于金字塔等级的特征
-
金字塔场景解析网络(PSPNet)
特征映射由4个不同规模的结构组成,每个结构对应于一个金字塔层,并由1x1卷积层处理以减少它们的维数
-
Mask R-CNN
Mask R-CNN是一个有3个输出分支的 Faster R-CNN :第一个计算边界框坐标,第二个计算相关的类别和最后一个计算二元mask³来分割目标
-
DeepLab
连续的最大池化和跨度减少了深度神经网络中特征图的分辨率,他们介绍了以zhao等人的空洞卷积为基础的带孔卷积核,它由以固定采样率瞄准稀疏像素的滤波器组成
-
DeepLabv3
结合了带孔卷积的级联和并行模块。作者修改了ResNet架构,使用空洞卷积将深度块中的高分辨率特征映射保留下来
-
DeepLabv3+
一个具有基本的CNN和一个ASPP的编码器产生特征表示,具有3x3卷积的解码器接收特征表示,产生最终预测图像
-
路径聚合网络(PANet)
(a):使用FPN架构的特征提取器。
(b):新增加的自下而上的路径被添加到FPN架构中。
(c):自适应特征池化层。
(d):两个分支分别预测边界框坐标和目标类别。
(e):预测目标的二进制掩码的分支。虚线对应于低级和高级模式之间的链接,红色部分是在FPN中,并且其包含的层数超过100;绿色部分是在PANet中的捷径,包含的层数少于10。
-
环境编码网络(EncNet)
开始时使用一个基础的特征提取器(ResNet),并向环境编码模块提供特征映射,该模块之上,利用特征映射注意层(全连接层)学习环境信息的缩放因子。与此同时,对应于二元交叉熵损失的语义编码损失(SE-Loss)通过检测对象类的存在(不同于像素级别的损失)来规范模块的训练
环境编码模块的输出通过扩展卷积策略进行重构和处理,同时最小化两个语义编码损失SE-Loss和一个最后的像素级别的损耗