目标检测与识别技术
HOG描述符(梯度直方图)
将图像分成小单元,每个小单元是16*16的像素块,每个单元包含8个方向的颜色梯度。单元组合成块,按块构造特征向量,便于归一化和考虑光照和阴影的变化,提高检测精度。
仅仅比较两幅图像的单元是不可行的,需要考虑位置和尺度问题。
图像金字塔:图像的多尺度表示。
滑动窗口:通过扫描较大图像的较小区域来解决定位问题,进而在同一图像的不同尺度下重复扫描。
非极大值抑制:与图像同一区域相关的所有结果进行抑制的技术。
支持向量机(SVM):对带有标签的训练数据,通过一个优化的超平面来对这些数据进行分类。
K-means聚类:用于数据分析的向量量化方法,k表示要分割的数据集中的簇数。
BOW(bag-of-word)词袋
检测识别过程
训练数据集;创建BOW训练器并获取视觉词汇(聚类);采用词汇训练SVM;对测试图像的图像金字塔采用滑动窗口进行检测;对重叠的矩形使用非极大值抑制;输出结果。
详见链接
1.提取训练数据的特征(SIFT或SURF等)
2.把特征向量添加到BOW里训练
3.K-means进行聚类,得到图像的BOW向量
4.用BOW已知图片中是否有目标存在,再用滑动窗口确定目标类别和位置,对每个窗口进行SVM分类,给出类别的评分,最后根据非极大值抑制筛选出目标。