计算机视觉识别任务
1. 语义分割
- 语义分割思路
1)滑动窗口
但是这种方法效率太低了,重叠区域反复被计算
2)全卷积
但是,如果处理过程中保持原始分辨率,对于显存的需求会非常庞大…
解决方案
上采样?
第二种方法还原的位置可能不对,引入index pooling方法,如下
可学习的上采样:转置卷积
例子
左边下采样,右边上采样
2. 目标检测
1)单目标(分类+定位)
2) 目标检测:多目标
CNN利用滑动窗口对图像中所有可能的区域进行分类,计算量巨大!!
后来改进,用区域建议Selective Search选取候选框
有了R - CNN
改进之后,有了Fast-RCNN
Fast-RCNN能实现端对端的网络,其中最主要的贡献就是在裁剪+缩放特征部分实现可导,ROI Pooling