行人检测综述

最新推荐文章于 2025-04-17 11:39:07 发布

denghe1122

最新推荐文章于 2025-04-17 11:39:07 发布

阅读量2.6w

点赞数 19

分类专栏：视觉/图像处理opencv 目标检测与目标跟踪文章标签：行人检测综述

视觉/图像处理opencv 同时被 2 个专栏收录

35 篇文章

订阅专栏

目标检测与目标跟踪

27 篇文章

订阅专栏

PART I

from: http://www.cnblogs.com/molakejin/p/5708791.html

行人检测具有极其广泛的应用：智能辅助驾驶，智能监控，行人分析以及智能机器人等领域。从2005年以来行人检测进入了一个快速的发展阶段，但是也存在很多问题还有待解决，主要还是在性能和速度方面还不能达到一个权衡。近年，以谷歌为首的自动驾驶技术的研发正如火如荼的进行，这也迫切需要能对行人进行快速有效的检测，以保证自动驾驶期间对行人的安全不会产生威胁。

1 行人检测的现状

大概可以分为两类

1.1 基于背景建模

利用背景建模方法，提取出前景运动的目标，在目标区域内进行特征提取，然后利用分类器进行分类，判断是否包含行人；背景建模目前主要存在的问题：

1）必须适应环境的变化（比如光照的变化造成图像色度的变化）；

2）相机抖动引起画面的抖动(比如手持相机拍照时候的移动)；

3）图像中密集出现的物体（比如树叶或树干等密集出现的物体，要正确的检测出来）；

4）必须能够正确的检测出背景物体的改变（比如新停下的车必须及时的归为背景物体，而有静止开始移动的物体也需要及时的检测出来）。

5）物体检测中往往会出现Ghost区域，Ghost区域也就是指当一个原本静止的物体开始运动，背静差检测算法可能会将原来该物体所覆盖的区域错误的检测为运动的，这块区域就成为Ghost，当然原来运动的物体变为静止的也会引入Ghost区域，Ghost区域在检测中必须被尽快的消除。

1.2 基于统计学习的方法

这也是目前行人检测最常用的方法，根据大量的样本构建行人检测分类器。提取的特征主要有目标的灰度、边缘、纹理、颜色、梯度直方图等信息。分类器主要包括神经网络、SVM、adaboost以及现在被计算机视觉视为宠儿的深度学习。

统计学习目前存在的难点：

1）行人的姿态、服饰各不相同、复杂的背景、不同的行人尺度以及不同的光照环境。

2）提取的特征在特征空间中的分布不够紧凑；

3）分类器的性能受训练样本的影响较大；

4）离线训练时的负样本无法涵盖所有真实应用场景的情况；

目前的行人检测基本上都是基于法国研究人员Dalal在2005的CVPR发表的HOG+SVM的行人检测算法(Histograms of Oriented Gradients for Human Detection, Navneet Dalel,Bill Triggs, CVPR2005)。HOG+SVM作为经典算法也集成到opencv里面去了，可以直接调用实现行人检测

为了解决速度问题可以采用背景差分法的统计学习行人检测，前提是背景建模的方法足够有效（即效果好速度快），目前获得比较好的检测效果的方法通常采用多特征融合的方法以及级联分类器。（常用的特征有Harry-like、Hog特征、LBP特征、Edgelet特征、CSS特征、COV特征、积分通道特征以及CENTRIST特征）。

2 综述类的文章

2.1 行人检测十年回顾

Ten Years of Pedestrian Detection, What Have We Learned?

一篇2014年ECCV的文章，是对pedestrian detectiond过去十年发展的回顾，从dataset，main approaches的角度分析了近10年的40多篇论文提出的方法，并对提高feature复杂度的影响进行了评估

下载：http://rodrigob.github.io/documents/2014_eccvw_ten_years_of_pedestrian_detection_with_supplementary_material.pdf

学习笔记：http://blog.csdn.net/mduke/article/details/46582443

2.2 P.Dollar PAMI 2012上的综述

P.Dollar, C. Wojek,B. Schiele, et al. Pedestrian detection: an evaluation of the state of the art [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(4): 743-761.

2012年PAMI上发表的一篇关于行人检测的综述性文章，PDF格式，共20页，对常见的16种行人检测算法进行了简单描述，并在6个公开测试库上进行测试，给出了各种方法的优缺点及适用情况。另外，指出了未来行人检测的发展方向和趋势。

下载：http://vision.ucsd.edu/~pdollar/files/papers/DollarPAMI12peds.pdf

2.3 CVPR2010 HOF和CSS

https://www.d2.mpi-inf.mpg.de/CVPR10Pedestrians

New Features and Insights for Pedestrian Detection

文中使用改进的HOG，即HOF和CSS（color self similarity）特征，使用HIK SVM分类器。本文的作者是德国人：Stefen Walk。目前Stefan Walk在苏黎世联邦理工大学任教。

2.4 Integral Channel Features

加州理工学院2009年行人检测的文章：Integral Channel Features（积分通道特征）

这篇文章与2012年PAMI综述文章是同一作者。作者：Piotr Dollar

Paper下载：http://pages.ucsd.edu/~ztu/publication/dollarBMVC09ChnFtrs_0.pdf

中文笔记：http://blog.csdn.net/carson2005/article/details/8455837

2.5 The Fastest Pedestrian Detector in the West

Dollar 在 2010 年 BMVC 的《The fastest pedestrian detector in the west》一文中提出了一种新的思想，这种思想只需要训练一个标准 model,检测 N/K（K ≈10）然后其余的 N-N/K 种大小的图片的特征不需要再进行这种复杂的计算，而是跟据这 N/K 次的结果，由另外一种简单的算法给估计出来，这种思想实现的基础是大小相近的图像的特征可以被足够精确的估计出来

下载：http://vision.ucsd.edu/sites/default/files/FPDW_0.pdf

2.6 DPM算法做目标检测

CVPR2008：A Discriminatively Trained, Multiscale, Deformable Part Model

PAMI2010：Object Detection with Discriminatively Trained Part Based Models

CVPR2010：Cascade Object Detection with Deformable Part Models

以上三篇文章，都是作者研究DPM算法做目标检测的文章，有源代码可以下载。

作者的个人主页：http://cs.brown.edu/~pff/papers/

2.7 利用DPM模型，检测粘连

Detection and Tracking of Occluded People

IJCV2014年的文章，利用DPM模型，检测粘连情况很严重的行人，效果很好。

下载：http://www.bmva.org/bmvc/2012/BMVC/paper009/

2.8 UDN算法

ICCV2013：

1）Joint Deep Learning for Pedestrian Detection

2）Multi-Stage Contextual Deep Learning for Pedestrian Detection

简称UDN算法，从文中描述的检测效果来看，该方法是所有方法中最好的，并且，效果远超过其他方法。经过对论文和该算法源码的研究，该算法是与作者另外一篇论文的方法，另外的论文算法做图片扫描，得到矩形框，然后用该方法对矩形框进行进一步确认，以及降低误警率和漏警率。另外的论文是：Multi-Stage Contextual Deep Learning for Pedestrian Detection。

这篇文章是用深度学习的CNN做candidate window的确认。而主要的行人检测的算法还是HOG+CSS+adaboost。

香港中文大学，Joint Deep Learning for Pedestrian Detection，行人检测论文的相关资源：http://www.ee.cuhk.edu.hk/~wlouyang/projects/ouyangWiccv13Joint/index.html

2.9 Monocular pedestrian detection

Enzweiler, and D.Gavrila. Monocular pedestrian detection: survey and experiments [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(12): 2179-2195.

下载：http://www.gavrila.net/pami09.pdf

2.10 Survey of pedestrian detection for advanced driver assistance systems

Geronimo, A. M.Lopez and A. D. Sappa, et al. Survey of pedestrian detection for advanced driver assistance systems [J]. IEEE Transactionson Pattern Analysis and Machine Intelligence, 2010, 32(7): 1239-1258.

百度文库下载：http://wenku.baidu.com/link?url=xLDWZTdLXT1_fiZoUzNFiyQtZTwnyL-lZHhTSI0B87vkIE6UEDrKz6iz8zpKmmPvZq7ktlX6WRxyVxcjk8B-ymgl53QBfzBEKgYPZmsi1l_

2.11 Vision-based Pedestrian Protection Systems for Intelligent Vehicles

Geronimo, and A. M.Lopez. Vision-based Pedestrian Protection Systems for Intelligent Vehicles, BOOK, 2014.

下载：http://bookzz.org/book/2167094/e21639

2.12 行人检测技术综述

苏松志, 李绍滋, 陈淑媛等. 行人检测技术综述[J]. 电子学报, 2012, 40(4): 814-820.

下载：行人检测技术综述

2.13 车辆辅助驾驶系统中基于计算机视觉的行人检测研究综述

贾慧星, 章毓晋.车辆辅助驾驶系统中基于计算机视觉的行人检测研究综述[J], 自动化学报, 2007, 33(1): 84-90.

下载：车辆辅助驾驶系统中基于计算机视觉的行人检测研究综述

2.14 行人检测系统研究新进展及关键技术展望

许言午, 曹先彬,乔红. 行人检测系统研究新进展及关键技术展望[J], 电子学报, 2008, 36(5): 368-376.

下载：行人检测系统研究新进展及关键技术展望

2.15 基于视觉的人的运动识别综述

杜友田; 陈峰;徐文立; 李永彬;基于视觉的人的运动识别综述, 电子学报, 2007. 35(1): 84-90.

下载：基于视觉的人的运动识别综述

2.16 基于机器学习的行人检测关键技术研究

朱文佳. 基于机器学习的行人检测关键技术研究[D]. 第一章, 硕士学位论文, 上海交通大学. 2008. 指导教师: 戚飞虎.

参考：http://hi.baidu.com/susongzhi/item/085983081b006311eafe38e7

参考：http://blog.csdn.net/dpstill/article/details/22420065

PART II

from： http://www.cnblogs.com/molakejin/p/5708797.html

这是行人检测相关资源的第二部分：源码和数据集。考虑到实际应用的实时性要求，源码主要是C/C++的。源码和数据集的网址，经过测试都可访问，并注明了这些网址最后更新的日期，供学习和研究进行参考。（欢迎补充更多的资源）

1 Source Code

1.1 INRIA Object Detection and Localization Toolkit

http://pascal.inrialpes.fr/soft/olt/

Dalal于2005年提出了基于HOG特征的行人检测方法，行人检测领域中的经典文章之一。HOG特征目前也被用在其他的目标检测与识别、图像检索和跟踪等领域中。

更新：2008

1.2 Real-time Pedestrian Detection.

http://cs.nju.edu.cn/wujx/projects/C4/C4.htm

Jianxin Wu实现的快速行人检测方法。

Real-Time Human Detection Using Contour Cues：

http://c2inet.sce.ntu.edu.sg/Jianxin/paper/ICRA_final.pdf

更新：2012

1.3 霍夫变换实现的多目标检测

http://graphics.cs.msu.ru/en/science/research/machinelearning/hough

Olga Barinova, CVPR 2010 Paper: On detection of multiple object instances using Hough Transforms

源码：C++

更新：2010

1.4 HIKSVM

http://ttic.uchicago.edu/~smaji/projects/fiksvm/

Classification Using Intersection Kernel SVMs is efficient

HOG+LBP+HIKSVM, 行人检测的经典方法.

源码：C/C++

更新：2012

1.5 GroundHOG

http://www.mmp.rwth-aachen.de/projects/groundhog

GPU-based Object Detection with Geometric Constraints, In: ICVS, 2011. CUDA版本的HOG+SVM,

源码：C/C++

更新：2011

1.6 doppia code

https://bitbucket.org/rodrigob/doppia

这是一个代码集合，包含如下：

Pedestrian detection at 100 frames per second, R. Benenson. CVPR, 2012. 实时的

Stixels estimation without depth map computation

Fast stixels estimation for fast pedestrian detection

Seeking the strongest rigid detector

Ten years of pedestrian detection, what have we learned?

Face detection without bells and whistles

源码：C/C++

更新：2015

1.7 Multiple camera pedestrian detection.

POM: Occupancy map estimation for people detection

http://cvlab.epfl.ch/software/pom/

Paper：Multi-Camera People Tracking with a Probabilistic Occupancy Map

源码：？

更新：2014

1.8 Pitor Dollar Detector.

Piotr’s Computer Vision Matlab Toolbox

http://vision.ucsd.edu/~pdollar/toolbox/doc/index.html

The toolbox is divided into 7 parts, arranged by directory:

channels Robust image features, including HOG, for fast object detection.

classify Fast clustering, random ferns, RBF functions, PCA, etc.

detector Aggregate Channel Features (ACF) object detection code.

filters Routines for filtering images.

images Routines for manipulating and displaying images.

matlab General Matlab functions that should have been a part of Matlab.

videos Routines for annotating and displaying videos.

源码：matlab

更新：2014

2 DataSets

2.1 MIT数据库

http://cbcl.mit.edu/software-datasets/PedestrianData.html

介绍：该数据库为较早公开的行人数据库，共924张行人图片（ppm格式，宽高为64×128），肩到脚的距离约80象素。该数据库只含正面和背面两个视角，无负样本，未区分训练集和测试集。Dalal等采用“HOG+SVM”，在该数据库上的检测准确率接近100%。

更新：2000

2.2 INRIA Person Dataset

http://pascal.inrialpes.fr/data/human/

介绍：该数据库是“HOG+SVM”的作者Dalal创建的，该数据库是目前使用最多的静态行人检测数据库，提供原始图片及相应的标注文件。训练集有正样本614张（包含2416个行人），负样本1218张；测试集有正样本288张（包含1126个行人），负样本453张。图片中人体大部分为站立姿势且高度大于100个象素，部分标注可能不正确。图片主要来源于GRAZ-01、个人照片及google，因此图片的清晰度较高。在XP操作系统下部分训练或者测试图片无法看清楚，但可用OpenCV正常读取和显示。

更新：2005

2.3 Daimler行人数据库

http://www.gavrila.net/Research/Pedestrian_Detection/Daimler_Pedestrian_Benchmark_D/

该数据库采用车载摄像机获取，分为检测和分类两个数据集。检测数据集的训练样本集有正样本大小为18×36和48×96的图片各15560（3915×4）张，行人的最小高度为72个象素；负样本6744张（大小为640×480或360×288）。测试集为一段27分钟左右的视频（分辨率为640×480），共21790张图片，包含56492个行人。分类数据库有三个训练集和两个测试集，每个数据集有4800张行人图片，5000张非行人图片，大小均为18×36，另外还有3个辅助的非行人图片集，各1200张图片。

更新：2009？

2.4 Caltech Pedestrian Detection

http://www.vision.caltech.edu/Image_Datasets/CaltechPedestrians/

该数据库是目前规模较大的行人数据库，采用车载摄像头拍摄，约10个小时左右，视频的分辨率为640×480，30帧/秒。标注了约250,000帧（约137分钟），350000个矩形框，2300个行人，另外还对矩形框之间的时间对应关系及其遮挡的情况进行标注。数据集分为set00~set10，其中set00~set05为训练集，set06~set10为测试集（标注信息尚未公开）。性能评估方法有以下三种：（1）用外部数据进行训练，在set06~set10进行测试；（2）6-fold交叉验证，选择其中的5个做训练，另外一个做测试，调整参数，最后给出训练集上的性能；（3）用set00~set05训练，set06~set10做测试。由于测试集的标注信息没有公开，需要提交给Pitor Dollar。结果提交方法为每30帧做一个测试，将结果保存在txt文档中（文件的命名方式为I00029.txt I00059.txt ……），每个txt文件中的每行表示检测到一个行人，格式为“[left, top,width, height, score]”。如果没有检测到任何行人，则txt文档为空。该数据库还提供了相应的Matlab工具包，包括视频标注信息的读取、画ROC（Receiver Operatingcharacteristic Curve）曲线图和非极大值抑制等工具。

更新：2014

2.5 TUD行人数据库

https://www.mpi-inf.mpg.de/departments/multi-cue-onboard-pedestrian-detection/

介绍：TUD行人数据库为评估运动信息在行人检测中的作用，提供图像对以便计算光流信息。训练集的正样本为1092对图像（图片大小为720×576，包含1776个行人）；负样本为192对非行人图像（手持摄像机85对，车载摄像机107对）；另外还提供26对车载摄像机拍摄的图像（包含183个行人）作为附加训练集。测试集有508对图像（图像对的时间间隔为1秒，分辨率为640×480），共有1326个行人。Andriluka等也构建了一个数据库用于验证他们提出的检测与跟踪相结合的行人检测技术。该数据集的训练集提供了行人的矩形框信息、分割掩膜及其各部位（脚、小腿、大腿、躯干和头部）的大小和位置信息。测试集为250张图片（包含311个完全可见的行人）用于测试检测器的性能，2个视频序列（TUD-Campus和TUD-Crossing）用于评估跟踪器的性能。

更新：2010

2.6 NICTA行人数据库

http://www.nicta.com.au/category/research/computer-vision/tools/automap-datasets/

该数据库是目前规模较大的静态图像行人数据库，25551张含单人的图片，5207张高分辨率非行人图片，数据库中已分好训练集和测试集，方便不同分类器的比较。Overett等用“RealBoost+Haar”评估训练样本的平移、旋转和宽高比等各种因素对分类性能的影响：（1）行人高度至少要大于40个象素；（2）在低分辨率下，对于Haar特征来说，增加样本宽度的性能好于增加样本高度的性能；（3）训练图片的大小要大于行人的实际大小，即背景信息有助于提高性能；（4）对训练样本进行平移提高检测性能，旋转对性能的提高影响不大。以上的结论对于构建行人数据库具有很好的指导意义。

更新：2008

2.7 ETHZ行人数据库

Robust Multi-Person Tracking from Mobile Platforms

https://data.vision.ee.ethz.ch/cvl/aess/dataset/

Ess等构建了基于双目视觉的行人数据库用于多人的行人检测与跟踪研究。该数据库采用一对车载的AVT Marlins F033C摄像头进行拍摄，分辨率为640×480，帧率13-14fps，给出标定信息和行人标注信息，深度信息采用置信度传播方法获取。

更新：2010

2.8 CVC行人数据库

http://www.cvc.uab.es/adas/site/?q=node/7

该数据库目前包含三个数据集（CVC-01、CVC-02和CVC-Virtual），主要用于车辆辅助驾驶中的行人检测研究。CVC-01[Geronimo,2007]有1000个行人样本，6175个非行人样本（来自于图片中公路区域中的非行人图片，不像有的行人数据库非行人样本为天空、沙滩和树木等自然图像）。CVC-02包含三个子数据集（CVC-02-CG、CVC-02-Classification和CVC-02-System），分别针对行人检测的三个不同任务：感兴趣区域的产生、分类和系统性能评估。图像的采集采用Bumblebee2立体彩色视觉系统，分辨率640×480，焦距6mm，对距离摄像头0~50m的行人进行标注，最小的行人图片为12×24。CVC-02-CG主要针对候选区域的产生，有100张彩色图像，包含深度和3D点信息；CVC-02-Classification主要针对行人分类，训练集有1016张正样本，7650张负样本，测试集分为基于切割窗口的分类（570张行人，7500张非行人）和整张图片的检测（250张包含行人的图片，共587个行人）；CVC-02-System主要用于系统的性能评估，包含15个视频序列（4364帧），7983个行人。CVC-Virtual是通过Half-Life 2图像引擎产生的虚拟行人数据集，共包含1678虚拟行人，2048个非行人图片用于测试。

更新：2015，目前已经更新到CVC-08了。

2.9 USC行人数据库

http://iris.usc.edu/Vision-Users/OldUsers/bowu/DatasetWebpage/dataset.html

该数据库包含三组数据集（USC-A、USC-B和USC-C），以XML格式提供标注信息。USC-A[Wu, 2005]的图片来自于网络，共205张图片，313个站立的行人，行人间不存在相互遮挡，拍摄角度为正面或者背面；USC-B的图片主要来自于CAVIAR视频库，包括各种视角的行人，行人之间有的相互遮挡，共54张图片，271个行人；USC-C有100张图片来自网络的图片，232个行人（多角度），行人之间无相互遮挡。

更新：2007