Pedestrian Identification (2) ——研究现状总结

最近一直在看行人检测的论文,对目前的行人检测做大概的介绍。

行人检测具有极其广泛的应用:智能辅助驾驶,智能监控,行人分析以及智能机器人等领域。从2005年以来行人检测进入了一个快速的发展阶段,但是也存在很多问题还有待解决,个人觉得主要还是在性能和速度方面还不能达到一个权衡。

1.行人检测的现状(大概可以分为两类)

(1).基于背景建模:利用背景建模方法,提取出前景运动的目标,在目标区域内进行特征提取,然后利用分类器进行分类,判断是否包含行人;

背景建模目前主要存在的问题:(背景建模的方法总结可以参考我的前一篇博文介绍)

  • 必须适应环境的变化(比如光照的变化造成图像色度的变化);
  • 相机抖动引起画面的抖动(比如手持相机拍照时候的移动);
  • 图像中密集出现的物体(比如树叶或树干等密集出现的物体,要正确的检测出来);
  • 必须能够正确的检测出背景物体的改变(比如新停下的车必须及时的归为背景物体,而有静止开始移动的物体也需要及时的检测出来)。
  • 物体检测中往往会出现Ghost区域,Ghost区域也就是指当一个原本静止的物体开始运动,背静差检测算法可能会将原来该物体所覆盖的区域错误的检测为运动的,这块区域就成为Ghost,当然原来运动的物体变为静止的也会引入Ghost区域,Ghost区域在检测中必须被尽快的消除。

(2).基于统计学习的方法:这也是目前行人检测最常用的方法,根据大量的样本构建行人检测分类器。提取的特征主要有目标的灰度、边缘、纹理、颜色、梯度直方图等信息。分类器主要包括神经网络、SVM、adaboost以及现在被计算机视觉视为宠儿的深度学习。

统计学习目前存在的难点:

  (a)行人的姿态、服饰各不相同、复杂的背景、不同的行人尺度以及不同的关照环境。

  (b)提取的特征在特征空间中的分布不够紧凑;

  (c)分类器的性能受训练样本的影响较大;

  (d)离线训练时的负样本无法涵盖所有真实应用场景的情况;

  目前的行人检测基本上都是基于法国研究人员Dalal在2005的CVPR发表的HOG+SVM的行人检测算法(Histograms of Oriented Gradients for Human Detection, Navneet Dalel,Bill Triggs, CVPR2005)。HOG+SVM作为经典算法也别集成到opencv里面去了,可以直接调用实现行人检测

  为了解决速度问题可以采用背景差分法的统计学习行人检测,前提是背景建模的方法足够有效(即效果好速度快),目前获得比较好的检测效果的方法通常采用多特征融合的方法以及级联分类器。(常用的特征有Harry-like、Hog特征、LBP特征、Edgelet特征、CSS特征、COV特征、积分通道特征以及CENTRIST特征。

2.行人检测综述性文章  

[1] D. Geronimo, and A. M.Lopez. Vision-based Pedestrian Protection Systems for Intelligent Vehicles, BOOK, 2014.

[2] P.Dollar, C. Wojek,B. Schiele, et al. Pedestrian detection: an evaluation of the state of the art [J].IEEE Transactions on PatternAnalysis andMachine Intelligence, 2012, 34(4): 743-761.

[3]苏松志, 李绍滋, 陈淑媛等. 行人检测技术综述[J]. 电子学报, 2012, 40(4): 814-820.

[4]M. Enzweiler, and D.Gavrila. Monocular pedestrian detection: survey and experiments [J]. IEEE Transactions on Pattern Analysis andMachine Intelligence, 2009, 31(12): 2179-2195.

[5] D. Geronimo, A. M.Lopez and A. D. Sappa, et al. Survey of pedestrian detection for advanced driverassistance systems [J]. IEEE Transactionson Pattern Analysis and Machine Intelligence, 2010, 32(7): 1239-1258.

[6]贾慧星, 章毓晋.车辆辅助驾驶系统中基于计算机视觉的行人检测研究综述[J], 自动化学报, 2007, 33(1): 84-90.

[7] 许言午, 曹先彬,乔红. 行人检测系统研究新进展及关键技术展望[J], 电子学报, 2008, 36(5): 368-376.

[8] 杜友田; 陈峰;徐文立; 李永彬;基于视觉的人的运动识别综述, 电子学报, 2007. 35(1): 84-90.

[9]朱文佳. 基于机器学习的行人检测关键技术研究[D]. 第一章, 硕士学位论文, 上海交通大学. 2008. 指导教师: 戚飞虎.

 最新论文

2014_ITS_Toward real-time pedestrian detection based on a deformable template model

2014_PAMI_Scene-specific pedestrian detection for static video surveillance

2014_CVPR_Pedestrian Detection in Low-resolution Imagery by Learning Multi-scale Intrinsic Motion Structures (MIMS)

2014_CVPR_Switchable Deep Network for Pedestrian Detection

2014_CVPR_Informed Haar-like Features Improve Pedestrian Detection

2014_CVPR_Word Channel Based Multiscale Pedestrian Detection Without Image Resizing and Using Only One Classifier

2013_BMVC_Surveillance camera autocalibration based on pedestrian height distribution

2013_Virtual and real world adaptation for pedestrian detection

2013_Search space reduction in pedestrian detection for driver assistance system based on projective geometry

2013_CVPR_Robust Multi-Resolution Pedestrian Detection in Traffic Scenes

2013_CVPR_Optimized Pedestrian Detection for Multiple and Occluded People
2013_CVPR_Pedestrian Detection with Unsupervised and Multi-Stage Feature Learning
2013_CVPR_Single-Pedestrian Detection aided by Multi-pedestrian Detection
2013_CVPR_Modeling Mutual Visibility Relationship in Pedestrian Detection
2013_CVPR_Local Fisher Discriminant Analysis for Pedestrian Re-identification

 3.行人检测source code

1.INRIA Object detection and Localization Toolkit, Dalal于2005年提出了基于HOG特征的行人检测方法,行人检测领域中的经典文章之一。HOG特征目前也被用在其他的目标检测与识别、图像检索和跟踪等领域中。

2. Real-time Pedestrian Detection. Jianxin Wu实现的快速行人检测方法。

3. Hough Transfom for Pedestrian Detection. Olga Barinova, CVPR 2010 Paper: On detection of multiple object instances using Hough Transforms

4. HIKSVM, HOG+LBP+HIKSVM, 行人检测的经典方法.

5. GroundHOG, GPU-based Object Detection with Geometric Constraints, In: ICVS, 2011. CUDA版本的HOG+SVM, video.

6. 100FPS_PDS, Pedestrian detection at 100 frames per second, R. Benenson. CVPR, 2012. 实时的(⊙o⊙)哦。 Real-time!!!

7. POM: Probabilistic Occupancy Map. Multiple camera pedestrian detection.

8. Pitor Dollar Detector. Integral Channel Feature + 多尺度特征近似+多特征融合. Real-Time!

4.行人检测DataSets

MIT数据库

该数据库为较早公开的行人数据库,共924张行人图片(ppm格式,宽高为64x128),肩到脚的距离约80象素。该数据库只含正面和背面两个视角,无负样本,未区分训练集和测试集。Dalal等采用“HOG+SVM”,在该数据库上的检测准确率接近100%。

INRIA数据库

该数据库是目前使用最多的静态行人检测数据库,提供原始图片及相应的标注文件。训练集有正样本614张(包含2416个行人),负样本1218张;测试集有正样本288张(包含1126个行人),负样本453张。图片中人体大部分为站立姿势且高度大于100个象素,部分标注可能不正确。图片主要来源于GRAZ-01、个人照片及google,因此图片的清晰度较高。在XP操作系统下部分训练或者测试图片无法看清楚,但可用OpenCV正常读取和显示。

Daimler行人数据库

该数据库采用车载摄像机获取,分为检测和分类两个数据集。检测数据集的训练样本集有正样本大小为18x36和48x96的图片各15560(3915x4)张,行人的最小高度为72个象素;负样本6744张(大小为640x480或360x288)。测试集为一段27分钟左右的视频(分辨率为640x480),共21790张图片,包含56492个行人。分类数据库有三个训练集和两个测试集,每个数据集有4800张行人图片,5000张非行人图片,大小均为18x36,另外还有3个辅助的非行人图片集,各1200张图片。

Caltech行人数据库

该数据库是目前规模较大的行人数据库,采用车载摄像头拍摄,约10个小时左右,视频的分辨率为640x480,30帧/秒。标注了约250,000帧(约137分钟),350000个矩形框,2300个行人,另外还对矩形框之间的时间对应关系及其遮挡的情况进行标注。数据集分为set00~set10,其中set00~set05为训练集,set06~set10为测试集(标注信息尚未公开)。性能评估方法有以下三种:(1)用外部数据进行训练,在set06~set10进行测试;(2)6-fold交叉验证,选择其中的5个做训练,另外一个做测试,调整参数,最后给出训练集上的性能;(3)用set00~set05训练,set06~set10做测试。由于测试集的标注信息没有公开,需要提交给Pitor Dollar。结果提交方法为每30帧做一个测试,将结果保存在txt文档中(文件的命名方式为I00029.txt I00059.txt ……),每个txt文件中的每行表示检测到一个行人,格式为“[left, top,width, height, score]”。如果没有检测到任何行人,则txt文档为空。该数据库还提供了相应的Matlab工具包,包括视频标注信息的读取、画ROC(Receiver Operatingcharacteristic Curve)曲线图和非极大值抑制等工具。

TUD行人数据库

TUD行人数据库为评估运动信息在行人检测中的作用,提供图像对以便计算光流信息。训练集的正样本为1092对图像(图片大小为720x576,包含1776个行人);负样本为192对非行人图像(手持摄像机85对,车载摄像机107对);另外还提供26对车载摄像机拍摄的图像(包含183个行人)作为附加训练集。测试集有508对图像(图像对的时间间隔为1秒,分辨率为640x480),共有1326个行人。Andriluka等也构建了一个数据库用于验证他们提出的检测与跟踪相结合的行人检测技术。该数据集的训练集提供了行人的矩形框信息、分割掩膜及其各部位(脚、小腿、大腿、躯干和头部)的大小和位置信息。测试集为250张图片(包含311个完全可见的行人)用于测试检测器的性能,2个视频序列(TUD-Campus和TUD-Crossing)用于评估跟踪器的性能。

NICTA行人数据库

该数据库是目前规模较大的静态图像行人数据库,25551张含单人的图片,5207张高分辨率非行人图片,数据库中已分好训练集和测试集,方便不同分类器的比较。Overett等用“RealBoost+Haar”评估训练样本的平移、旋转和宽高比等各种因素对分类性能的影响:(1)行人高度至少要大于40个象素;(2)在低分辨率下,对于Haar特征来说,增加样本宽度的性能好于增加样本高度的性能;(3)训练图片的大小要大于行人的实际大小,即背景信息有助于提高性能;(4)对训练样本进行平移提高检测性能,旋转对性能的提高影响不大。以上的结论对于构建行人数据库具有很好的指导意义。

ETH行人数据库

Ess等构建了基于双目视觉的行人数据库用于多人的行人检测与跟踪研究。该数据库采用一对车载的AVT Marlins F033C摄像头进行拍摄,分辨率为640x480,帧率13-14fps,给出标定信息和行人标注信息,深度信息采用置信度传播方法获取。

CVC行人数据库

该数据库目前包含三个数据集(CVC-01、CVC-02和CVC-Virtual),主要用于车辆辅助驾驶中的行人检测研究。CVC-01[Geronimo,2007]有1000个行人样本,6175个非行人样本(来自于图片中公路区域中的非行人图片,不像有的行人数据库非行人样本为天空、沙滩和树木等自然图像)。CVC-02包含三个子数据集(CVC-02-CG、CVC-02-Classification和CVC-02-System),分别针对行人检测的三个不同任务:感兴趣区域的产生、分类和系统性能评估。图像的采集采用Bumblebee2立体彩色视觉系统,分辨率640x480,焦距6mm,对距离摄像头0~50m的行人进行标注,最小的行人图片为12x24。CVC-02-CG主要针对候选区域的产生,有100张彩色图像,包含深度和3D点信息;CVC-02-Classification主要针对行人分类,训练集有1016张正样本,7650张负样本,测试集分为基于切割窗口的分类(570张行人,7500张非行人)和整张图片的检测(250张包含行人的图片,共587个行人);CVC-02-System主要用于系统的性能评估,包含15个视频序列(4364帧),7983个行人。CVC-Virtual是通过Half-Life 2图像引擎产生的虚拟行人数据集,共包含1678虚拟行人,2048个非行人图片用于测试。

USC行人数据库

该数据库包含三组数据集(USC-A、USC-B和USC-C),以XML格式提供标注信息。USC-A[Wu, 2005]的图片来自于网络,共205张图片,313个站立的行人,行人间不存在相互遮挡,拍摄角度为正面或者背面;USC-B的图片主要来自于CAVIAR视频库,包括各种视角的行人,行人之间有的相互遮挡,共54张图片,271个行人;USC-C有100张图片来自网络的图片,232个行人(多角度),行人之间无相互遮挡。 

5.Others

相关资料资料
1. Edgar Seemann维护的行人检测网站,比较全,包括publications, code, datasets等。
2. Pedestrian detection: state of the art. A video talk byPitor Dollar. Pitor Dollar做了很多关于行人检测方法的研究,他们研究小组的Caltech Pedestrian Dataset也很出名。

6.人体行为识别(Human Action Recognition)

来源:http://hi.baidu.com/susongzhi/item/656d196a2dcd733cac3e83e3 

1. Statistical and Structural Recognition of Human Actions. ECCV, 2010 Tutorial, by Ivan Laptev and Greg Mori. (注:要用爬墙软件才能访问到)
2. Human Action Recognition in realistic scenarios, 一份很好的硕士生毕业论文开题资料。

 以上参考:http://hi.baidu.com/susongzhi/item/085983081b006311eafe38e7


作者:郑哲东
链接:https://www.zhihu.com/question/46943328/answer/139931140

以下为一些公开的行人重识别代码链接:(我会持续更新)LOMO: Person Re-identification by Local Maximal Occurrence Representation and Metric Learning

Improved CNN:

[python implementation (tensorFlow) ]: Ning-Ding/Implementation-CVPR2015-CNN-for-ReID

[c++ dlib version ]: ptran516/idla-person-reid2stream-CNN:

[Matconvnet]: layumi/2016_person_re-ID

[Caffe]: D-X-Y/caffe-reidCNN+Pose:erichuang0771/PoseBox-Reid

DomainDropout: Cysu/dgd_person_reid

PersonSearch: ShuangLI59/person_search

Baseline: zhunzhong07/IDE-baseline-Market-1501

k-reciprocal re-ranking: zhunzhong07/person-re-ranking

Triplet: VisualComputingInstitute/triplet-reid


感谢@乜咩牙 补充代码链接。


数据集链接:

Re-ID Dataset Summary: robustsystems.coe.neu.edu

CUHK01, 02, 03: Rui Zhao's Homepage

Market-1501, PRW, Mars: Liang Zheng's Homepage

DukeMTMC_reID: layumi/DukeMTMC-reID_evaluation

Attribute相关数据集:

RAP : An introduction to the RAP dataset

Attribute for Market-1501and DukeMTMC_reID: vana-yutian (组里妹子标的,大家可以支持一下~)

NLP相关数据集:

自然语言搜图像:xiaotong.me/static/proj

自然语言搜索行人所在视频(还没正式release):mi.t.u-tokyo.ac.jp/proj

————新paper———-

回复中提到论文基本是几个不同的方向。在这里列出这些paper和新paper的arXiv链接,和大家共同学习。(和自然语言结合;svd做更好更短的embedding;Reranking对map提升很大,pratical的work;GAN做数据增强,防止过拟合;Attribute 传统multitask,IDlevel提供数据集;Triplet loss扶我起来,我还能干;PoseBox检测part然后fusion)

Caption:[1702.05729] Person Search with Natural Language Description

SVDNet:[1703.05693] SVDNet for Pedestrian Retrieval

Reranking:[1701.08398] Re-ranking Person Re-identification with k-reciprocal Encoding

GAN:[1701.07717] Unlabeled Samples Generated by GAN Improve the Person Re-identification Baseline in vitro

Attribute:[1703.07220] Improving Person Re-identification by Attribute and Identity Learning

Triplet Loss:[1703.07737] In Defense of the Triplet Loss for Person Re-Identification

PoseBox:[1701.07732] Pose Invariant Embedding for Deep Person Re-identification

NLPVideo:[1704.07945] Spatio-temporal Person Retrieval via Natural Language Queries


7    综述类的文章

7.1    行人检测十年回顾

        Ten Years of Pedestrian Detection, What Have We Learned?
        一篇2014年ECCV的文章,是对pedestrian detectiond过去十年发展的回顾,从dataset,main approaches的角度分析了近10年的40多篇论文提出的方法,并对提高feature复杂度的影响进行了评估
7.2    P.Dollar  PAMI 2012上的综述
        P.Dollar, C. Wojek,B. Schiele, et al. Pedestrian detection: an evaluation of the state of the art [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(4): 743-761.
        2012年PAMI上发表的一篇关于行人检测的综述性文章,PDF格式,共20页,对常见的16种行人检测算法进行了简单描述,并在6个公开测试库上进行测试,给出了各种方法的优缺点及适用情况。另外,指出了未来行人检测的发展方向和趋势。
7.3    CVPR2010 HOF和CSS
        New Features and Insights for Pedestrian Detection
        文中使用改进的HOG,即HOF和CSS(color self similarity)特征,使用HIK SVM分类器。 本文的作者是德国人:Stefen Walk。目前Stefan Walk在苏黎世联邦理工大学任教。
7.4    Integral Channel Features
        加州理工学院2009年行人检测的文章:Integral Channel Features(积分通道特征)
        这篇文章与2012年PAMI综述文章是同一作者。作者:Piotr Dollar
7.5    The Fastest Pedestrian Detector in the West
        Dollar 在 2010 年 BMVC 的 《The fastest pedestrian detector in the west》 一文中提出了一种新的思想,这种思想只需要训练一个标准 model,检测 N/K(K ≈10) 然后其余的 N-N/K 种大小的图片的特征不需要再进行这种复杂的计算,而是跟据这 N/K 次的结果, 由另外一种简单的算法给估计出来,这种思想实现的 基础是大小相近的图像的特征可以被足够精确的估计出来
7.6    DPM算法做目标检测
        CVPR2008:A Discriminatively Trained, Multiscale, Deformable Part Model
        PAMI2010:Object Detection with Discriminatively Trained Part Based Models
        CVPR2010:Cascade Object Detection with Deformable Part Models
        以上三篇文章,都是作者研究DPM算法做目标检测的文章,有源代码可以下载。
        作者的个人主页:http://cs.brown.edu/~pff/papers/
7.7    利用DPM模型,检测粘连
        Detection and Tracking of Occluded People
        IJCV2014年的文章,利用DPM模型,检测粘连情况很严重的行人,效果很好。
7.8    UDN算法
        ICCV2013:
        1)Joint Deep Learning for Pedestrian Detection
        2)Multi-Stage Contextual Deep Learning for Pedestrian Detection
        简 称UDN算法,从文中描述的检测效果来看,该方法是所有方法中最好的,并且,效果远超过其他方法。经过对论文和该算法源码的研究,该算法是与作者另外一篇 论文的方法 ,另外的论文算法做图片扫描,得到矩形框,然后用该方法对矩形框进行进一步确认,以及降低误警率和漏警率。另外的论文是:Multi-Stage Contextual Deep Learning for Pedestrian Detection。
        这篇文章是用深度学习的CNN做candidate window的确认。而主要的行人检测的算法还是HOG+CSS+adaboost。
        香港中文大学,Joint Deep Learning for Pedestrian Detection,行人检测论文的相关资源:http://www.ee.cuhk.edu.hk/~wlouyang/projects/ouyangWiccv13Joint/index.html
7.9    Monocular pedestrian detection
         Enzweiler, and D.Gavrila. Monocular pedestrian detection: survey and experiments [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009,  31(12): 2179-2195.
        下载:http://www.gavrila.net/pami09.pdf
7.10       Survey of pedestrian detection for advanced driver assistance systems
        Geronimo, A. M.Lopez and A. D. Sappa, et al. Survey of pedestrian detection for advanced driver assistance systems [J].  IEEE Transactionson Pattern Analysis and Machine Intelligence,  2010, 32(7): 1239-1258.
7.11       Vision-based Pedestrian Protection Systems for Intelligent Vehicles
        Geronimo, and A. M.Lopez. Vision-based Pedestrian Protection Systems for Intelligent Vehicles, BOOK, 2014.
        下载:http://bookzz.org/book/2167094/e21639
7.12       行人检测技术综述
        苏松志, 李绍滋, 陈淑媛等. 行人检测技术综述[J]. 电子学报, 2012, 40(4): 814-820.
        下载:行人检测技术综述
7.13       车辆辅助驾驶系统中基于计算机视觉的行人检测研究综述
        贾慧星, 章毓晋.车辆辅助驾驶系统中基于计算机视觉的行人检测研究综述[J], 自动化学报, 2007, 33(1): 84-90.
7.14       行人检测系统研究新进展及关键技术展望
        许言午, 曹先彬,乔红. 行人检测系统研究新进展及关键技术展望[J], 电子学报, 2008, 36(5): 368-376.
7.15       基于视觉的人的运动识别综述
         杜友田; 陈峰;徐文立; 李永彬;基于视觉的人的运动识别综述, 电子学报,  2007. 35(1): 84-90.
7.16       基于机器学习的行人检测关键技术研究
        朱文佳. 基于机器学习的行人检测关键技术研究[D]. 第一章, 硕士学位论文, 上海交通大学. 2008. 指导教师: 戚飞虎.

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值