深度篇——图像处理的一些方法(一) 关于 图像处理的三个层次 与 selective search

本文介绍了图像处理的三个层次:分类、检测和分割,重点讲解了选择性搜索(Selective Search)在目标检测中的作用,该方法通过区域相似度计算形成感兴趣区域,用于减少背景干扰。虽然现代方法已不再广泛使用,但了解其原理有助于理解后续的图像处理技术。
摘要由CSDN通过智能技术生成

返回主目录

返回 图像处理的一些方法 目录

下一章:深度篇——图像处理的一些方法(二) 细说 性能评估 IOU 和 GIOU

 

目录内容

深度篇——图像处理的一些方法(一) 关于 图像处理的三个层次 与 selective search

深度篇——图像处理的一些方法(二) 细说 性能评估 IOU 和 GIOU

深度篇——图像处理的一些方法(三)  细说 HOG 特征 与 bag-of-word

深度篇——图像处理的一些方法(四) 细说 图像金字塔

 

本章节对图像处理的一些方法讲解,是为了在后面讲到图像处理时,需要的一些先验知识,以便于更好的理解。

 

论文地址:《Selective Search for Object Recognition

 

本小节,关于 图像处理的三个层次 与 selective search,下一小节细说 性能评估 IOU 和 GIOU

 

一. 图像处理的三个层次

1. 分类(classification)

      即是将图像结构化为某一类别的信息,用事先确定好的类别(String) 实例的 ID 来描述图像(如手写数字识别)。这一任务是最简单、最基础的图像理解任务,也是深度学习模型最先取得突破和实现大规模应用的任务。其中,ImageNet 是最权威的评测机构,每年的 ILSVRC 催生了大量的优秀深度网络结构,为其他任务提供了基成。在应用领域、人脸、场景的识别等都可以归为分类任务。

 

2. 检测(detection)

      分类任务关心整体,给出的是整张图像的内容描述,而检测则关注特定的物体目标,要求同时获得这一目标的类别信息和位置信息。相比分类,检测给出的是图像前景和背景的理解,需要从背景中分离出感兴趣的目标,并确定这一目标的描述(类别和位置),因而,检测模型的输出是一个列表,列表的每一项使用一个数据给出检测目标的类别和位置(常用矩形检测框的坐标表示)。

 

3. 分割(segmentation)

      分割包括语义分割(semantic segmentation) 和实例分割(instance segmenation),前者是对前背景分离的拓展,要求分离开具有不同语义的图像部分,而后者是检测任务的拓展,要求描述出目标的轮廓(相比检测框更为精细)。分割是对图像的像素级描述,它赋予每个像素类别(实例) 意义,适用于理解要求较高的场景,如无人驾驶中对道路和非道路的分割。

   (1). 语义分割

         只能分割出类别(如 人类、狗类 等)

   (2). 实例分割

         可以将每一个具体的实例分割出来(如分割出每一个人,每一条狗等),实现了目标检测和语义分割。

   (3). 全景分割

         包含了语义分割和实例分割。

 

二. selective search 选择性搜索

目标检测(Object Detection) 的目的是为了减少不必要因素的干扰(比如 从背景很负责的图像中识别出一个小动物,那样的准确率会大大的降低),此外还能同时得到目标在图像中的位置(还包括 宽度和高度)。当决定要进行 Object Detection 的时候,大家的想法都差不多的,滑动窗口扫描嘛,不同大小的窗口从左到右,从上到下的,一顿操作。不用想,这样是超级浪费时间的,绝大部分的扫描都是没用的,因为框住的根本不是目标。所以继续想,要是能直接框住图像中的目标,而不是那些无用的背景,而且也不需要框得特别准确。有了这一思想,于是人们想出了 selective search (选择性搜索)

selective search 的思想:

1. 区域相似度计算 

   在计算多种相似度的时候,都是把单一相似度的值归一化到 [0, 1] 之间,1 表示两个区域之间的相似度最大。

   (1). 颜色相似度

        首先通过利用颜色的相似度(毕竟如果颜色很相似,那么极有可能是一个整体),形成一些小的区域,具体算法是将整张图看成一个无向图,节点之间的距离就是像素的距离(在这里使用 RGB 计算距离并不好,最好转换一下颜色空间,如 HSV 等)。使用 \large L_{1} - norm 归一化获取图像每个像素通道的 25 bins 的直方图,这样每个区域都可以得到一个 75 维的向量 \large \{c_{i, 1}, c_{i, 2}, ......, c_{i, n} \},区域之间颜色相似度通过下面的公式计算:

                 \LARGE S_{color}(r_{i}, r_{j}) = \sum_{k = 1}^{n} \min (c_{i, k}, c_{j, k})

         由于 \large \{c_{i, 1}, c_{i, 2}, ......, c_{i, n}\} 是归一化后的值,每一个颜色通道的直方图累加和为 1.0,三个通道的累加和就是 3.0,如果区域 \large c_{i} 和区域 \large c_{j} 直方图完全一样,则此时颜色相似度最大,为 3.0;如果不一样,由于累加取两个区域 bin 的最小值进行累加,当直方图差距越大,累加的和就会越小,即颜色相似度越小。在区域合并过程中需要对新的区域进行计算其直方图,计算方法:

                  

  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值