FCN

最新推荐文章于 2024-07-27 17:26:39 发布

好运来2333

最新推荐文章于 2024-07-27 17:26:39 发布

阅读量815

点赞数 4

分类专栏： Paper

本文链接：https://blog.csdn.net/qq_33254870/article/details/90137097

版权

Paper 专栏收录该内容

15 篇文章 2 订阅

订阅专栏

论文地址：https://arxiv.org/abs/1703.06870
项目地址：https://github.com/shelhamer/fcn.berkeleyvision.org
自制PPT与讲解视频链接：https://github.com/DHUB721/Object-Detection （注：仅个人理解，如有错误请多多指正，轻喷，谢谢！）
至于FCN结构的讲解网上资料已经特别多了，但是对上采样的细节基本没有介绍，本文就上采样进行详细讲解！

0. 导语

问题：你们对于卷积是怎么理解的?
（1）从物理意义上看，即利用一个卷积核对图像进行特征提取，如果卷积步长大于1可以实现降采样的目的。（如果步长为小数呢？）
在这里插入图片描述（2）从矩阵角度看，有 I、II 两种方式。
    I. 卷积核固定
        固定卷积核，则需要对输入图像矩阵进行展开
    II. 输入固定
        固定输入，则需要对卷积核矩阵进行展开

这对于理解反卷积是极为重要的一步！

1. 术语阐述

（1）pixelwise prediction：像素级预测，即将图像中每一个像素进行类别的预测。
（2）heatmap：由于是像素级预测，那么必须逐个像素计算softmax分类的损失, 相当于每一个像素对应一个训练样本，于是产生了热图。所以热图表示的是像素预测类别的概率大小。
（3）dense prediction：不仅标注出图像中每个像素点的对象类别，而且给出具体目标的位置，或描绘物体的边界。
（4） upsampling：Upsampling is backwards strided convolution 。

2. 上采样

论文中介绍了三种上采样方式。

2.1 Input shifting and output interlacing

在这里插入图片描述

由名字可以看出，这种上采样方式有两部分组成：对输入进行转移 + 对输出进行隔行扫描。对输入进行转移，其实就是变换原始输入的组织形式，对于同一张图像产生更多的输入形式，本质就是增加池化以保留更多的信息，以便能够将粗糙的输出映射回去。（因为普通的池化结果是保留了部分信息，无法等价映射回去，所以这种方式就相当于对同一张图像进行了不同的池化，每一种池化都保留了部分信息。）
在这里插入图片描述