dense prediction
理解:标注出图像中每个像素点的对象类别,要求不但给出具体目标的位置,还要描绘物体的边界,如图像分割、语义分割、边缘检测等等。
基于深度学习主要的做法有两种:
- 基于图像分块:利用像素、超像素块周围小邻域进行独立的分类。(在分类网络中使用全连接层,固定图像块尺寸)
- 基于全卷积网络:对图像进行pixel-to-pixel 的预测,可以得到任意大小的图像分割结果,而且不需要对每个图像块进行分类,速度快。重要的两点:卷积层上采样、skip connection结构
由于全卷积网络的各种优点,之后各种改进模型被提出来:
- u-net(用作医学图像分割)对图像进行编码之后解码,在编码时同样是卷积+下采样的结构,为了恢复图像的细节空间信息,在编码与解码过程中加入shortcut connection结构。
- segNet结构:也是一种编码解码结构,无shortcut connection结构,(将最大池化索引maxpooling indices 转移到解码器)解码时,不像FCN中进行upsampling 的反卷积,而是复制了最大池化索引,使得segNet 比FCN节省内存。(但是准确率不高)
- dialated convolutions 结构:此结构不需要池化层,使用