这章节主要讲解RNN能在计算机视觉领域完成什么任务。
目前为止好像都是以线性分类器作基础讲解神经网络的,具体实现比如网络最后一层有4096神经元而我们要做个10分类,那么需要添加10个神经元与前面的4096个神经元全连接,这样输出的10个数值看作是类别得分,分类的概念在之前讲过。但应用绝非局限于图像分类任务。这里就要介绍另外两个常见任务:检测detection和分割segmentation。展开可以分为1.单目标检测(Classification + Localizatio);2.多目标检测object detection;3.语义分割semantic segmentation;4.实例分割instance segmentation。
应用1.语义分割semantic segmentation
该任务即从给定的一幅图中按像素点分类,但不同于普通图像分类输出一维标量,它输出的是二维的分割图。
解决方案一:滑动窗口Sliding Window
解决方案二:全卷积Fully Convolutional
解决方案三:全卷积Fully Convolutional+downsampling+upsampling
可参考论文:Long, Shelhamer, and Darrell, “Fully Convolutional Networks for Semantic Segmentation”, CVPR 2015
Noh et al, “Learning Deconvolution Network for Semantic Segmentation”, ICCV 2015
其中上采样upsampling的方法思路基本为刚开始怎样下采样的,然后就采取逆过程完成上采样。
pooling对应逆过程unpooling: