全卷积网络的理解——理解论文Fully Convolutional Networks for Semantic Segmentation

最新推荐文章于 2024-03-21 16:51:12 发布

CUHK-SZ-relu

最新推荐文章于 2024-03-21 16:51:12 发布

阅读量436

点赞数

分类专栏： pytorch 语义分割文章标签：深度学习卷积

本文链接：https://blog.csdn.net/qq_43210957/article/details/117073798

版权

pytorch 同时被 2 个专栏收录

13 篇文章 1 订阅

订阅专栏

语义分割

6 篇文章 0 订阅

订阅专栏

论文详解

下面的五个部分是对论文提出的模型的理解，如果你想了解论文本身，那么请移步：
1.论文阅读的储备知识-CNN
2.读论文的普适性过程
 3.摘要部分详细阅读
 4.引言部分详细阅读
 5.相关工作部分

1.和VGG网络的对比

我们清楚在VGG网络当中，我们最后需要使用三个全连接层开始对原有图像进行处理，最后得到的是一个1×1000的向量，表示的是1000种识别种类的概率。VGG当中最后的全连接是整个模型中的较大败笔
我们可以粗略的理解一下这个事情，1.我们使用一维向量进行计算的过程中，会丢失大量的二维信息。这是十分不好的。

2.那么fcn是什么？

经过下采样操作和上采样还原之后，得到的还是一张图片，经过人眼观看，我们可能什么都看不出来，但是计算机还是可以看出来这是一个图片。
其实就是将最后的几层也是做成一个卷积层，让其还是一个图片。
当然在这里我们注意一下，正常的，我们做卷积，最后都是通过一个view()让其变成一维的，然后送到线性层进行处理。这呢，就会丢失很多信息，这是我们不愿意看到的。
在这里插入图片描述
所以fcn是对原来的没有经过view的图片进行处理，来来完成信息的保留。再加之，我们本身的目的就是在像素级别进行识别。

3.论文改进的模型

3.1怎样进行上采样的问题

我们为了更好的理解这个图片，我们得先明白这个东西里面每个到底都是表示些什么。这里的每一块都是包含了卷积和池化，也就是我们常常说的下采样的意思。得到的内容是图像的像素信息缩小。为了达到端到端的目的，我们就必须对缩小后的图片进行还原。
这个还原的过程就对应着被称作，上采样，这个上采样的方法其实有很多，但是本文提出的上采样的方法是反卷积。

在这里插入图片描述
这里我们回忆之前常有的上采样方式就是差值的方式，FCN创新性提出的就是使用反卷积的方式来完成这个上采样的方式。这个想到反卷积这个概念其实不难，因为有卷积就可能有反卷积。关键就在于怎么具体定义这个反卷积的操作。
这里注意反卷积的问题，他并不是真正的反向的卷积，不能还原因卷积而丢失的值，只是恢复了大小。同时反卷积又称为转置卷积。
仔细理解其原理的话，其实就是一个可以放大原有内容的卷积操作。
在这里插入图片描述

3.2从哪里开始上采样的问题–跳跃连接的问题

在开始之前我们要先明确一个概念。什么是浅层网络，什么是深层网络？什么是浅层网络？，粗略的理解一下就是：深层网络就是经过的层数较多，浅层网络就是经过的层数较少。较浅层的网络就是较浅层的几个下采样块，较深层的网络就是深层的下采样块。

经过本文的试验，研究团队得到一个信息就是，浅层网络，所能学习的范围更小，但是更能得到某一点的具体细节，深层网络学习的范围更大，但是不能很好的得到局部信息。这就是之前我们在阅读论文当中提到的，局部信息和全局信息不能同时得到的这个矛盾。

当然这里的学习范围是有一个专有名词的，那就是感受域。

文章之前已经说了上采样的事情，这时候第二件事情就是什么时候开始上采样的问题。
在这里插入图片描述
这里注意一个问题，我们直接使用一个跳跃连接把两个下采样都连接起来不久局部信息和整体信息都联系起来了吗，哪还有什么两者的冲突？其实是对的，但是逻辑上的先后不对。

我们在一开始的时候是没有提出这种跳跃连接的，必须是一层一层的不断得出来。这样持续不断的下采样，到最后我们只得到了全局的信息，而没有得到整体的信息。所以，大家的感觉的是没有错的，跳跃连接正是缓解两个冲突的一个方法。

我们看一下这篇文章是如何做跳跃连接的操作的：
在这里插入图片描述
为了看懂这个图我们先要理解两个事情：
1.这个5005003的这个表示方式是什么意思，这里的500500是宽度，3是我们熟系的通道数channels。
2.这里的蓝色是卷积层，这里的绿色是池化层，橘色是反卷积层，黄色是合并层（add或是cat），灰色的是一个卷积核大小为33的卷积层，这里主要是对其中内容进行一步预处理之后再加入其中。

好了现在我们可以开始理解这个图了，
1.输入之后经过不断地操作，我们从原有的输入逐渐变成了343421这里的34*34好理解就是一个最后输出的结果的大小，这个21呢是这个论文当中的标签种类的个数。
2.这个叠加的过程中一边还原一边叠加新的，是还原到对应大小才能叠加之前的内容嘛。

3.3整体设计思想

这里整体的设计思想就是在深层次的网络当中，使用反卷积进行还原的时候，可能丢失部分细节信息，所以我们使用跳连接的方式来缓解这个问题。

4.1实验结果

4.1语义分割的评价标准

Pixel Accuracy(PA)像素精度：标记正确的像素占比。

Mean Pixel Accuracy(MPA)均像素精度：计算每个类内被正确分配的像素的比例，之后直接对比例进行平均（不加权重，加入权重不久和之前一样了吗？）

Mean Intersection over Union(MIoU)均交并比：计算真实值和预测值的交集和并集。（可以看到均交并比就是多了一个简单的均值其实没什么）
在这里插入图片描述

前面两个我们是很容易理解的但是其并不是最好用，最好用的是第三个，但是第三个又不好理解，所以我们画了下面一个图来帮助我们理解一下。这里的真实值表示为实际为标签a的位置，预测值为预测为真的位置。也就AB的交集和AB的并集的比例嘛一下子就理解了。就是看重合的多少嘛。

在这里插入图片描述

4.2参数设置的问题

GPU： NVIDIA Tesla K40c

优化器：SGD
优化器一般就选择SGD或是Ada

学习率：10的-4次方，一般情况下，学习率在1000个epoch之后会有更新，一般是大家根据自己网络设置的。

batch size：20

5.论文解决的问题

1.CNN网络输出为一个概率值，不太够用。
FCN输出一个图片更加好用。

2.CNN网络使用全连接层使得信息丢失。
FCN全部使用卷积层，保留二维信息。

3.上采样丢失很多细节信息。
使用跳连接保留这些信息。

CUHK-SZ-relu

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
全卷积网络的理解——理解论文Fully Convolutional Networks for Semantic Segmentation

目录和VGG网络的对比和VGG网络的对比我们清楚在VGG网络当中，我们最后需要使用三个全连接层开始对原有图像进行处理，最后得到的是一个1×1000的向量，表示的是1000种识别种类的概率。VGG当中最后的全连接是整个模型中的较大败笔我们可以粗略的理解一下这个事情，1.我们使用一维向量进行计算的过程中，会丢失大量的二维信息。这是十分不好的。...
复制链接

扫一扫