视觉识别任务
- 分类:就是识别出你这个图片主体是什么,比如我就仅仅说这个图片是个猫。
- 语义分割:图片上的每一个像素属于什么类别,针对于像素级别。
- 目标检测:给出图片上目标是什么以及目标的位置。
- 实力分割:给出图片上不同目标像素级别的分割。
达到语义分割最简单的思路是对于每一个像素进行判断,用一个窗口进行滑动。
这样有个问题:滑动窗口如果重叠,会使相邻特征被反复重复计算。若滑动窗口没有重叠,也得好几次对同一图片进行滑动。
解决方案,我就卷积一次。
多个卷积核进行一次卷积。
得到C×H×W的特征响应图,对于其中每一个横条矩阵,预测了网络对于该像素属于哪一个类的预测。原来图像进行每一个像素的类别标注,多次卷积然后反向计算类别预测损失,更新卷积核值。
问题:每一步保持原始H×W的分辨率会使的显存需求特别大,导致显存爆炸。
介绍几种上采样方法:
1.直接4个小格全部由原始值代替。
2.四个小格某个位置为原始值,其他位置为0。
3.下采样的时候记录下采样位置,上采样的时候恢复对应位置值。
我们来看另一种方式。
首先回顾卷积操作,以上述三×三操作为例。
通过转置可以使得4维变回6维
上采样中x y z是可以学习的。
上层网络向上采样依赖于高层信息,但是很多低层信息也是有用的,所以两个桥接:低层卷积核和高层卷积核桥接,downpooling和uppooling桥接,保证低层信息不被丢失。