深度篇——图像处理的一些方法(一) 关于图像处理的三个层次与 selective search

最新推荐文章于 2023-12-28 21:02:27 发布

置顶

万道一

最新推荐文章于 2023-12-28 21:02:27 发布

阅读量2.6k

点赞数 2

分类专栏： AI章文章标签：深度学习

本文链接：https://blog.csdn.net/qq_38299170/article/details/104433623

版权

本文介绍了图像处理的三个层次：分类、检测和分割，重点讲解了选择性搜索（Selective Search）在目标检测中的作用，该方法通过区域相似度计算形成感兴趣区域，用于减少背景干扰。虽然现代方法已不再广泛使用，但了解其原理有助于理解后续的图像处理技术。

摘要由CSDN通过智能技术生成

返回主目录

返回图像处理的一些方法目录

下一章：深度篇——图像处理的一些方法(二) 细说性能评估 IOU 和 GIOU

目录内容

深度篇——图像处理的一些方法(一) 关于图像处理的三个层次与 selective search

深度篇——图像处理的一些方法(二) 细说性能评估 IOU 和 GIOU

深度篇——图像处理的一些方法(三) 细说 HOG 特征与 bag-of-word

深度篇——图像处理的一些方法(四) 细说图像金字塔

本章节对图像处理的一些方法讲解，是为了在后面讲到图像处理时，需要的一些先验知识，以便于更好的理解。

论文地址：《Selective Search for Object Recognition》

本小节，关于图像处理的三个层次与 selective search，下一小节细说性能评估 IOU 和 GIOU

一. 图像处理的三个层次

1. 分类(classification)

即是将图像结构化为某一类别的信息，用事先确定好的类别(String) 实例的 ID 来描述图像(如手写数字识别)。这一任务是最简单、最基础的图像理解任务，也是深度学习模型最先取得突破和实现大规模应用的任务。其中，ImageNet 是最权威的评测机构，每年的 ILSVRC 催生了大量的优秀深度网络结构，为其他任务提供了基成。在应用领域、人脸、场景的识别等都可以归为分类任务。

2. 检测(detection)

分类任务关心整体，给出的是整张图像的内容描述，而检测则关注特定的物体目标，要求同时获得这一目标的类别信息和位置信息。相比分类，检测给出的是图像前景和背景的理解，需要从背景中分离出感兴趣的目标，并确定这一目标的描述(类别和位置)，因而，检测模型的输出是一个列表，列表的每一项使用一个数据给出检测目标的类别和位置(常用矩形检测框的坐标表示)。

3. 分割(segmentation)

分割包括语义分割(semantic segmentation) 和实例分割(instance segmenation)，前者是对前背景分离的拓展，要求分离开具有不同语义的图像部分，而后者是检测任务的拓展，要求描述出目标的轮廓(相比检测框更为精细)。分割是对图像的像素级描述，它赋予每个像素类别(实例) 意义，适用于理解要求较高的场景，如无人驾驶中对道路和非道路的分割。

(1). 语义分割

只能分割出类别(如人类、狗类等)

(2). 实例分割

可以将每一个具体的实例分割出来(如分割出每一个人，每一条狗等)，实现了目标检测和语义分割。

(3). 全景分割

包含了语义分割和实例分割。

二. selective search 选择性搜索

目标检测(Object Detection) 的目的是为了减少不必要因素的干扰(比如从背景很负责的图像中识别出一个小动物，那样的准确率会大大的降低)，此外还能同时得到目标在图像中的位置(还包括宽度和高度)。当决定要进行 Object Detection 的时候，大家的想法都差不多的，滑动窗口扫描嘛，不同大小的窗口从左到右，从上到下的，一顿操作。不用想，这样是超级浪费时间的，绝大部分的扫描都是没用的，因为框住的根本不是目标。所以继续想，要是能直接框住图像中的目标，而不是那些无用的背景，而且也不需要框得特别准确。有了这一思想，于是人们想出了 selective search (选择性搜索)

selective search 的思想：

1. 区域相似度计算

在计算多种相似度的时候，都是把单一相似度的值归一化到 [0, 1] 之间，1 表示两个区域之间的相似度最大。

(1). 颜色相似度

首先通过利用颜色的相似度(毕竟如果颜色很相似，那么极有可能是一个整体)，形成一些小的区域，具体算法是将整张图看成一个无向图，节点之间的距离就是像素的距离(在这里使用 RGB 计算距离并不好，最好转换一下颜色空间，如 HSV 等)。使用 $\large L_{1} - norm$ 归一化获取图像每个像素通道的 25 bins 的直方图，这样每个区域都可以得到一个 75 维的向量 $\large \{c_{i, 1}, c_{i, 2}, ......, c_{i, n} \}$ ，区域之间颜色相似度通过下面的公式计算：

$\LARGE S_{color}(r_{i}, r_{j}) = \sum_{k = 1}^{n} \min (c_{i, k}, c_{j, k})$

由于 $\large \{c_{i, 1}, c_{i, 2}, ......, c_{i, n}\}$ 是归一化后的值，每一个颜色通道的直方图累加和为 1.0，三个通道的累加和就是 3.0，如果区域 $\large c_{i}$ 和区域 $\large c_{j}$ 直方图完全一样，则此时颜色相似度最大，为 3.0；如果不一样，由于累加取两个区域 bin 的最小值进行累加，当直方图差距越大，累加的和就会越小，即颜色相似度越小。在区域合并过程中需要对新的区域进行计算其直方图，计算方法：