计算机视觉-深度学习图像检测方法梳理
由于之后要转方向啦,趁这段时间整理手中硕士研究方向的一些阅读笔记,这是一篇关于计算机视觉的基础知识梳理
先搞清一些小知识点
首先我们要弄清楚图像分类、目标定位、语义分割、实例分割的区别
a. 图像分类 :给定一张输入图像,图像分类任务旨在判断该图像所属类别;
b. 目标定位 :在图像分类的基础上,我们还想知道图像中的目标具体在图像的什么位置,通常是以包围盒的(bounding box)形式;
c. 语义分割 :语义分割是目标检测更进阶的任务,目标检测只需要框出每个目标的包围盒,语义分割需要进一步判断图像中哪些像素属于哪个目标;
d. 实例分割 :语义分割不区分属于相同类别的不同实例。例如,当图像中有多只猫时,语义分割会将两只猫整体的所有像素预测为“猫”这个类别。
其次,什么是选择性搜索Selective Search(SS)?
在目标检测时,为了定位到目标的具体位置,通常会把图像分成许多子块(sub-regions / patches),然后把子块作为输入,送到目标识别的模型中。分子块的最直接方法叫滑动窗口法(sliding window approach)。滑动窗口的方法就是按照子块的大小在整幅图像上穷举所有子图像块。和滑动窗口法相对的是另外一类基于区域(region proposal)的方法。selective search就是其中之一。至于为什么选SS,是因为相比滑窗法在不同位置和大小的穷举,候选区域算法将像素分配到少数的分割区域中。所以最终候选区域算法产生的数量比滑窗法少的多,从而大大减少运行物体识别算法的次数。同时候选区域算法所选定的范围天然兼顾了不同的大小和长宽比。
具体实现步骤和效果结合上图食用:
1.首先将所有分割区域的外框加到候选区域列表中
2.基于相似度(颜色、纹理、大小和形状交叠)合并一些区域
3.将合并后的分割区域作为一个整体,跳到步骤1
通过不停的迭代,候选区域列表中的区