最近看的行人检测文章概要

最新推荐文章于 2022-03-16 15:53:55 发布

Ace_Yom

最新推荐文章于 2022-03-16 15:53:55 发布

阅读量6.9k

点赞数 1

分类专栏： pedestrian detection 文章标签：行人检测

本文链接：https://blog.csdn.net/Ace_Yom/article/details/47313879

版权

pedestrian detection 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

 [1]	Rodrigo Benenson, Mohamed Omran, Jan Hosang, Bernt Schiele. Ten Years of Pedestrian Detection, What Have We Learned ? In ECCV, CVRSUAD workshop, 2014. 1,2,3,4,5,6,7,8

这篇文章回顾了过去十年pedestrian detection 的发展状况: 过去十年提出的算法，几个重要的benchmark。把主流的算法分成三类: DF、DPM、DN。DF就是用decision forests的方法，比如SquaresChnFtrs，DPM就是 Deformable part model，DN就是 deep network。大体算是三种technique吧，虽然里面会有一些算法是杂糅了别的technique的。做了四个实验，其中一个实验将多种features、tricks加在SquaresChnFtrs上，得到performance很好的Katamari-v1方法。

四个实验简叙如下:

实验一:　　Reviewing the effect of features

　　　　过程:　　在这十年间提出来的算法中，挑出若干进行实验(挑出的这些方法，使用的特征越来越复杂，越来越多)。

　　　　结论:　　说明，这些算法的提升，很大程度上依赖于使用了更好的特征。

实验二:　　Complementarity of approaches

　　过程:

以SquaresChnFtrs为基准算法，添加一些techniques得到一些变种: +DCT/SDt/2Ped... 顺带提出了一种新的算法:Katamari-v1 = SquaresChnFtrs + DCT + SDt + 2Ped，该方法也是截止到这篇论文发表的时候，最好的detector了。DCT的处理在论文4.1节第三段详细提及；SDt使用了optical flow；2Ped使用了context。

结论:　　

把这些techniques杂糅在一个方法上，有较大的提升。而且多techniques的算法相对于原SquareChnFtrs的提升与各technique相对于原SquareChnFtrs的提升之和比较接近。说明这些techniques/approaches的互补性比较强。但是可能还可以进一步提炼出更纯粹的技巧。

实验三:　　How much capacity is needed ?

　　　　过程:　　

把训练好的模型扩展到测试集上，是非常重要。那么这对训练集有什么要求呢。让一些方法使用 Caltech / INRIA 训练集训练，然后在Caltech 测试集上跑，并比较。

　　　　结论:　　

在Caltech训练集上训练的方法的performance 明显比在 INRIA训练集上训练的方法的performance要好。主要体现在 SquareChnFtrs(I) 和 SquareChnFtrs(C) 的对比上。个人觉得比较的样本太少，存疑。

实验四:　　Generalisation across datasets

　　　　过程:　　

用不同的训练集训练(INRIA、Caltech、KITTI)，然后用不同的测试集测试(INRIA、Caltech、KITTI、ETH)，KITTI的 performance是用AUC衡量的，越高越好，其他的benchmark的performance是用MR衡量的，越低越好。另外还测试了一个 SquareChnFtrs的变种SquareICF方法在KITTI上的performance，还不错。

结论:

使用的INRIA训练的模型，在各个测试集上都表现良好，两个第1(INRIA、ETH)，两个第二(Caltech、KITTI)；只要方法好，在不同的benchmark上的表现都是稳定的。

结论: 这篇论文倾向于认为，好的特征和技巧对于提升行人检测方法的性能至关重要，而且这些特征大部都是经过人工反复实验(hand-crafted with trial and error)得到的。实验大头是使用将多种特征、技巧加在SquaresChnFtrs上，得到performance很好的Katamari-v1方法。对deep networks的方法讨论极少。而下面的论文[2]使用的network以raw pixels作为输入，由网络自行学习特征，不使用人工的特征，实验得到很好的performance !

[2]	Jan Hosang, Mohamed Omran, Rodrigo Benenson, Bernt Schiele. Taking a Deeper Look at Pedestrians.  In CVPR 2015.

　　以往用于行人检测(pedestrian detection)的dnn，除了Yann Lecun等人提出的ConvNet之外，大都依赖人工特征(hand-crafted features)，如HOG什么的。这些dnn(除了ConvNet)的提出者，对原始cnn的拓扑进行了修改，以适应他们的模型思想。

　　这篇paper使用没有修改拓扑的naive的CNN进行实验，发现经过训练后，在测试的时候，其 performance比 1)经过“特化”的CNN(如SDN) 2)以及大多数非CNN方法(如ACF、SCF)要好。

　　paper里边使用了一大一小的dnn，大的为“AlexNet”，(使用caffe框架自带的R-CNN来实现)，小的用CifarNet(caffe里也有)。默认使用的detection proposals来自SquaresChnFtrs (这是Caltech上开放源代码的最好的检测算法了)，默认的网络输入是raw RGB image。另外，还对一些参数(如training batch、 model window size、Number and type of layers...)的设置进行讨论，选用较好的参数，用在主要的实验里边。

　　benchmark: Caltech1x、Caltech10x、KITTI。

　　部分实验结果:

　　仅使用Caltech1x训练的CifarNet在Caltech1x上的表现仅次于使用decision forests的SpatialPooling，前者的MR是30.7%，后者的MR是29.2%；

　　仅使用Caltech1x训练的AlexNet的MR是32.4%，不及CifarNet；

　　在single-frame-detector(不算光流方法)中，仅使用Caltech10x训练的AlexNet在Caltech10x上的表现仅次于LDCF，前者为27.5%，后者为24.8%；

　　AlexNet是第一个在KITTI上测试的dnn，获得50.1%的AP(average precision)，次于Regionlets的55.0%和SpatialPooling的54.5%。

　　部分图表如下: