模型任务
将图片中的事物按照人的理解进行区域性分割
模型简介
整体构架
在上图这个特定的FCN中,一个问题是通过几个交替的卷积层和池层传播,输出特征映射的分辨率被降采样,会损失大量细节特征缺失。因此,FCN的直接预测通常分辨率较低,导致对象边界相对模糊。于是有的学者考虑使用一个挑层结构将底层特征与上层特征拼接到一起,为输出图像添加比较细节的边界特征
主要特点
-
FCN将知识从VGG16传输到执行语义分割。
-
VGG16的全连接层使用1X1卷积转换为全卷积层。这个过程产生一个低分辨率的类存在热图——也就是语义分割的目标图。
-
使用转置卷积(反卷积结构,如下图所示)对这些低分辨率语义特征图进行上采样——即放大尺寸。
它其实并不是一个卷积的逆过程,具体原理是先将原矩阵加一些0扩大尺寸,再用常规卷积得到一张比原图尺寸还大的矩阵,从而达到上采样的作用。
-
常规卷积网络过程及计算原理
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-wq5AI0d5-1636174413997)(…/AppData/Roaming/Typora/typora-user-images/image-20211012002808598.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-GOrjfpKI-1636174413998)(…/AppData/Roaming/Typora/typora-user-images/image-20211012002524062.png)]
-
-
在每个阶段,通过在VGG16中添加来自较粗但分辨率较高的底层特征图的特征,进一步细化了上采样过程。
-
跳过连接在每个卷积块之后引入,以使后续块能够从以前的集合特性中提取更抽象、类显著的特性
如果只是用VGG模型训练,将会损失很多底层特征,vgg模型做语义分割的实验数据精度会很差,而FCN模型将底层特征与高层特征拼接起来,这样可以有效提高模型精度
评价指标
由于语义分割最后的目标值是一张图片,故评价指标会和其他分类任务有所区别
Pixel Accuracy(PA,像素精度):
标记正确的像素占总像素的比例。
Mean Pixel Accuracy(MPA,均像素精度):
是PA的一种简单提升,计算每个类内被正确分类像素数的比例,之后求所有类的平均。
一句话:mAP就是所有的类的AP值求平均。
Mean Intersection over Union(MIoU,均交并比):
为语义分割的标准度量。其计算两个集合的交集和并集之比,在语义分割的问题中,这两个集合为真实值(ground truth)和预测值(predicted segmentation)。在每个类上计算IoU,之后平均。
直观表示:
公式:
实例展示
课程论文——基于全卷积深度学习网络结构的胃肠息肉图片分割
代码实现——基于全卷积深度学习网络结构的胃肠息肉图片分割论文实现代码及数据集