常见的搜索框技术为滑动窗口法,超越窗口法,选择型搜索算法、R-CNN算法和边界框回归算法等。
1,滑动窗口法
整体法和部位法
整体法:提取行人的整体信息然后检测
部分法:提取行人部分信息(例如头、手臂、身体、腿等)然后在构建部分间几何关系的基础上进行检测
一般HOG+SVM行人检测算法采用的是整体法,而形变部位模型(DPM)采用的是部分法。
滑动窗口法是一种类似于暴力搜索的方法,从左到右,从上到下的穷举所有可能的窗口,然后使用SVM进行检测,选择得分最高的区域作为行人的位置。滑动窗口法可以切割出不同大小的子图像块,但是由于行人的长宽比列变化不大,因此检测行人采用的都是固定宽高比。
2,超越窗口法
超越滑动窗 口 法 是 近 年 来 随 着 基 于 “词 袋 ”(bagofwords,BOW )的场景分类技术的发展而出现的。
“词袋”模型是场景分类中的代表性方法,通常包
含如下三个步骤:视觉词典的构建、基于词典的图片 表示和分类器学习.超越滑动窗口是基于 BOW的方 法 ,目 前 常见的有隐式形 状模型、高效子窗口法和跳跃窗口法。
高效子窗口搜索法(EficientSubwindowSearch,ES) 是 Lampert等提出的一种快速目标定位技术,该方法 利用线性支持向量机的可加性,将分类器的输出转化 为各个维度的权重累加和,采用分支限定技术寻找参 数空间的极大值 .ES虽然能在参数空间中寻找一个最 优值,但是检测速度较慢 .
隐式形状模型将行人检测视为广义的霍夫变换问 题:首先通过局部特征检测算子寻找关键点;然后在关 键点的周围选取一固定大小的图像块,通过聚类、随机 森 林 [53]或 者 最 大 间 隔 [54]等 方 法 建 立 局 部 块 的 空 间 分 布模式;最后通过霍夫投票方式确定行人位置.隐式形 状模型能有效解决遮挡,但是并不是所有的物体都能 利用局部特征检测器检测到关键点,该方法只有在侧 面行人检测时有较好的效果 .
跳跃窗口法与 隐 式 形 状 模 型 类 似 ,不 同 在于每个局部特征不是对行人的中心点进行投票,而是对应一 个行人可能出现的矩形框位置,最后对所有的矩形框 位置进行融合 .
3,选择型搜索搜法
选择型搜素算法是一种不固定宽高比的图像分割算法,一开始对没有标签的图片根据像素强度将图像过度分割为超像素,然后根据大小、形状兼容性、颜色和纹理合并彼此相似的相近子区块,形成高召回率并且数量更少的目标区域,继续迭代,直至形成可能对象的区域。图2.8展示了选择型搜索算法中的分割合并过程中的开始、中间和最终结果。
使用的选择搜索算法的步骤如下:
(1)在输入的图像预处理之后,使用Felzenszwalb和Huttenlocher的分割算法对图像进行过分割形成若干R=r1,r2,…,rn;
(2)计算彼此相领区块在大小、形状兼容性、颜色和纹理之间的相似度s(ri,rj),
相似度的集合为S=sri,rj,…;
(3)把集合S中值最大的ri和rj区域合并为一个区域rt,将sri,rj从集合S中删除,重新计算的rt和临近区域的相似度,同时把子区域块rt加入到子区块集合R中;
(4)迭代步骤(3)直到集合S为空集。此时区块集合R的子集就是最后分割的区域,即子集所对应的子区块外边框为可能的行人对象位置。
4,R-CNN算法
使用候选区域方法创建的数个ROI(感兴趣区域),并将这些ROI转换为固定大小的图像并送到CNN中。该网络架构后面一般会跟几个全连接层,以实现目标分类并提炼边界框 。
5,边界框回归算法
虽然相对于滑动窗口检测器来说,候选区域方法有很大的性能提升,但是整个算法仍然具有较大的计算复杂度。为了加速这个进程,我们通常会选用计算量较小的候选区域选择方法构建ROI,并在后面使用线性回归器(全连接层)进一步提炼边界框。