Region proposals 是什么?如何提取?


Region proposals 是什么?如何提取?

1. 如何直观的理解 region proposals ?

在这里插入图片描述在这里插入图片描述

  • 上图中每一个黄色的框框住的内容都是一个 region propoal ,方方正正的。
  • region propoal 通常是使用一种叫 selective search 的方法来确定的。selective search 可以简单的理解为对图片中的每一个像素进行聚类:相邻的相同颜色的像素是一个类别,相邻的相同纹理的像素是一个类别。一个又一个的像素点聚集起来之后就是就变成了上图中一个又一个的块状斑。每一个块状斑就极有可能是我们需要检测的目标。
  • 斑的正外接矩形就是我们需要的 region propoal 。
  • 块状斑的特点:斑与斑之间的差异较大,斑内的成分与成分之间的差异小。就是低耦合高内聚的意思。

2. R-CNN 中的 region proposals 起什么作用?

  • 为后续的CNN网络提供输入。

2.1. R-CNN 实现检测目标的三个步骤?

R-CNN 的网络结构

  1. 第一步:使用传统方法从原始图片中提取2k个形状大小不统一的 region proposals
  2. 第二步:将每一个 region proposal 转变成相同大小(227*227),再使用CNN网络提取特征,输出特征向量。
  3. 第三步:使用SVM分类提取出的特征向量(包含背景类别)。

2.2. region proposals 是如何提取的?

2.2.1. selective search (提取 region proposals 的方法)的三个特点
  1. Capture All Scales:能通捕获不同尺寸的额目标。因为 selective search 方式是通过分层算法对每一个像素进行处理后一步步得到更大的目标,所以只要像素合并的算法足够合理,理论上说,selective search 就能区分开每一个我们想要区分的物体。
  2. Diversificatio:多元化。即结合多种方法(颜色,纹理……)来分析各个 region 之间的相似度,保证最后生成的 region proposals 的质量更高。
  3. Fast to Compute:算法比较快。
2.2.2. region proposals 最终的每一个 region 是如何合并变大的?
  • 第一步,通过 Efficient Graph-Based Image Segmentation 算法生成最初的小 region。
    论文链接:Efficient Graph-Based Image Segmentation,Cited by 5808
  • 第二步,使用贪心算法将这些 region 迭代合并。
    • 计算当前每一个 region 与相邻 region 之间的相似度。
    • 合并相邻且最相似的 region,这样就可以将小 region 变成一个更大一点的 region(整幅图中的 region 数目就会变少)。
    • 重复上面的两个步骤,直到合并完所有的 region,最后只剩下一个 region(整幅图),贪心算法计算完成。
  • 说明:贪心算法计算过程中的每一步都可以做作为最终的 region proposal ,具体取哪一步值之后的 region proposals 是由相似度阈值(参数)来确定的。
    region proposals 的生成过程
2.2.3. region proposals 最初的每一个 region 是如何生成的?
  1. 待写
2.2.4. 合并相似的 region 时 ,相似度是怎样定义和度量的?
  • scolour(ri, rj) 使用颜色来度量 region 之间的相似度 :每一个 region 的每一种颜色使用25个值来表示(HOG特征)。如果一个 region 有三个颜色通道,那么就需要使用75(3*25)个值来描述这个 region 的颜色信息。

    • 每个 region 用颜色直方图表示为(n=75):
      在这里插入图片描述
    • 两个 region 之间的相似度使用直方图间的交集的累加表示:==不理解为什么使用最小和表示,而不是使用两者之间的差值呢?==计算C1和C2的HOG,计算两个HOG的重叠面积即为相似度。
      在这里插入图片描述
    • 两个 region 合并之后的颜色直方图和大小分别是:
      在这里插入图片描述
      在这里插入图片描述
  • ** stexture(ri, rj) 使用纹理来度量 region 之间的相似度**:每一个 region 的每一种颜色使用使用8个方向的信息来表示,每个方向的信息是使用10个数据来表示的。如果一个 region 有三个颜色通道,那么就需要使用240(3*8*10)个数据来描述这个 region 的信息。

    • 这里的信息提取使用的是SIFT(局部特征描述子)[后续补充相关点]()
    • 每个 region 用纹理直方图表示为(n=240):
      在这里插入图片描述
    • 两个 region 之间的相似度:
      在这里插入图片描述
  • ssize(ri, rj) 鼓励合并较小的两个的 region

    • 在尺度上,不是应该合并相似尺度的 region,而是应该合并较小的两个region,所以当两个 region 的尺寸都很小时,应该被鼓励合并,此时度量值应该较大。size(im)表示整幅图的尺寸大小 。
    • 两个 region 因尺寸原因需要被合并的程度(越小越该合并,值越大):
      在这里插入图片描述
  • sfill(ri, rj) 度量两个 region 在外形上的匹配程度:应该优先合并两个 region 的外界矩形的空余部分较少的情况。

    • size(BiBj):表示两个两个 region 合并起来之后的图形的外接矩形的大小。
    • 两个 region 外接矩形的空白越少,就越应该合并,这个度量值就应该越大。
      在这里插入图片描述
    • 同样条件下,下图中的BC将优先于BA先合并。因为BC组合之后更像一个整体,因为组合之后不会之后的外接矩形没有太多的空白。
      在这里插入图片描述
  • 上面的4个值越大,表示两个 region 之间的颜色越相似,纹理越相似,尺寸越小,形状越匹配。

  • 最后会选取这些度量方法中的部分来使用。参数a设置为1时,就表示启用了这种度量方法。
    在这里插入图片描述

必看相关论文

  1. R-CNN:Rich feature hierarchies for accurate object detection and semantic segmentation,2014,Cited by 7848
  2. Selective Search for Object Recognition, 2013,Cited by 2781
  3. Efficient Graph-Based Image Segmentation,2004, Cited by 5808
  • 54
    点赞
  • 252
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
### 回答1: 在卷积神经网络中,proposals是指可能包含目标物体的候选框。它是通过使用物体检测算法来生成的。具体而言,卷积神经网络会在输入图像上进行滑动窗口操作或使用region proposal方法来生成候选框。 滑动窗口操作是指将一个固定大小的窗口在图像上按固定的步长进行滑动,每个窗口都作为一个候选框进行检测。这样会生成大量的候选框,但效率较低。 相比之下,region proposal方法会通过使用一些启发式的规则来生成少量但更具代表性的候选框。这些规则可以基于滑动窗口操作的结果或是其他先验知识,例如物体的形状、尺度等。这样可以在减少计算量的同时,保证生成的候选框更有可能包含目标物体。 在卷积神经网络中,proposals扮演着重要的角色。它们是网络输出的一部分,用于确定图像中对象的位置和大小。通常,proposals会和网络的其他部分进行进一步的处理和调整,以最终得到更精确的目标物体检测结果。 总之,proposals在卷积神经网络中具有提供候选框的功能,用于检测目标物体的位置和尺度。它们是通过物体检测算法生成的,可以通过滑动窗口操作或region proposal方法获得。 ### 回答2: 在卷积神经网络(CNN)中,proposals(提议)是指网络根据输入图像中的特征提取出来的候选目标区域。CNN通常用于目标检测任务,在这种任务中,我们需要找到图像中可能包含感兴趣目标的区域。 在传统的目标检测算法中,需要通过滑动窗口的方式在图像中搜索所有可能的目标位置,这种方式计算量巨大且效率低下。而在使用CNN进行目标检测时,网络可以通过卷积层和池化层等操作,在图像上提取出特征图。根据这些特征图,CNN提供了一种更高效的方法来生成可能包含目标的候选框,这些候选框就是proposalsproposals具有以下特点:它们是一组矩形框,每个矩形框表示一个图像区域,该区域有可能包含感兴趣目标。proposals的产生是基于CNN对输入图像进行卷积和特征提取,选择出具有潜在目标的候选区域。通常,这些候选区域会被输入到接下来的分类器中,以确定是否存在目标并进行进一步的定位。 在实际应用中,proposals可用于各种目标检测任务,如人脸检测、车辆检测等。通过CNN生成的proposals减少了搜索空间,提高了检测的效率和准确性。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值