下一章:深度篇——图像处理的一些方法(二) 细说 性能评估 IOU 和 GIOU
目录内容
深度篇——图像处理的一些方法(一) 关于 图像处理的三个层次 与 selective search
深度篇——图像处理的一些方法(二) 细说 性能评估 IOU 和 GIOU
深度篇——图像处理的一些方法(三) 细说 HOG 特征 与 bag-of-word
深度篇——图像处理的一些方法(四) 细说 图像金字塔
本章节对图像处理的一些方法讲解,是为了在后面讲到图像处理时,需要的一些先验知识,以便于更好的理解。
论文地址:《Selective Search for Object Recognition》
本小节,关于 图像处理的三个层次 与 selective search,下一小节细说 性能评估 IOU 和 GIOU
一. 图像处理的三个层次
1. 分类(classification)
即是将图像结构化为某一类别的信息,用事先确定好的类别(String) 实例的 ID 来描述图像(如手写数字识别)。这一任务是最简单、最基础的图像理解任务,也是深度学习模型最先取得突破和实现大规模应用的任务。其中,ImageNet 是最权威的评测机构,每年的 ILSVRC 催生了大量的优秀深度网络结构,为其他任务提供了基成。在应用领域、人脸、场景的识别等都可以归为分类任务。
2. 检测(detection)
分类任务关心整体,给出的是整张图像的内容描述,而检测则关注特定的物体目标,要求同时获得这一目标的类别信息和位置信息。相比分类,检测给出的是图像前景和背景的理解,需要从背景中分离出感兴趣的目标,并确定这一目标的描述(类别和位置),因而,检测模型的输出是一个列表,列表的每一项使用一个数据给出检测目标的类别和位置(常用矩形检测框的坐标表示)。
3. 分割(segmentation)
分割包括语义分割(semantic segmentation) 和实例分割(instance segmenation),前者是对前背景分离的拓展,要求分离开具有不同语义的图像部分,而后者是检测任务的拓展,要求描述出目标的轮廓(相比检测框更为精细)。分割是对图像的像素级描述,它赋予每个像素类别(实例) 意义,适用于理解要求较高的场景,如无人驾驶中对道路和非道路的分割。
(1). 语义分割
只能分割出类别(如 人类、狗类 等)
(2). 实例分割
可以将每一个具体的实例分割出来(如分割出每一个人,每一条狗等),实现了目标检测和语义分割。
(3). 全景分割
包含了语义分割和实例分割。
二. selective search 选择性搜索
目标检测(Object Detection) 的目的是为了减少不必要因素的干扰(比如 从背景很负责的图像中识别出一个小动物,那样的准确率会大大的降低),此外还能同时得到目标在图像中的位置(还包括 宽度和高度)。当决定要进行 Object Detection 的时候,大家的想法都差不多的,滑动窗口扫描嘛,不同大小的窗口从左到右,从上到下的,一顿操作。不用想,这样是超级浪费时间的,绝大部分的扫描都是没用的,因为框住的根本不是目标。所以继续想,要是能直接框住图像中的目标,而不是那些无用的背景,而且也不需要框得特别准确。有了这一思想,于是人们想出了 selective search (选择性搜索)
selective search 的思想:
1. 区域相似度计算
在计算多种相似度的时候,都是把单一相似度的值归一化到 [0, 1] 之间,1 表示两个区域之间的相似度最大。
(1). 颜色相似度
首先通过利用颜色的相似度(毕竟如果颜色很相似,那么极有可能是一个整体),形成一些小的区域,具体算法是将整张图看成一个无向图,节点之间的距离就是像素的距离(在这里使用 RGB 计算距离并不好,最好转换一下颜色空间,如 HSV 等)。使用 归一化获取图像每个像素通道的 25 bins 的直方图,这样每个区域都可以得到一个 75 维的向量 ,区域之间颜色相似度通过下面的公式计算:
由于 是归一化后的值,每一个颜色通道的直方图累加和为 1.0,三个通道的累加和就是 3.0,如果区域 和区域 直方图完全一样,则此时颜色相似度最大,为 3.0;如果不一样,由于累加取两个区域 bin 的最小值进行累加,当直方图差距越大,累加的和就会越小,即颜色相似度越小。在区域合并过程中需要对新的区域进行计算其直方图,计算方法: