论文提要“Taking a Deeper Look at Pedestrians”

最新推荐文章于 2022-09-28 10:32:18 发布

cv_family_z

最新推荐文章于 2022-09-28 10:32:18 发布

阅读量2.9k

点赞数 1

分类专栏：目标检测深度学习

本文链接：https://blog.csdn.net/cv_family_z/article/details/48053535

版权

深度学习同时被 2 个专栏收录

105 篇文章 0 订阅

订阅专栏

目标检测

43 篇文章 0 订阅

订阅专栏

比较：使用CNN做行人检测，目前最好的基于convnet的行人检测方法是SDN，之前的方法没有直接使用LeNet的，本文使用该网络。目前最好的行人检测方法是基于决策树的，包括SquaresChnFtrs，InformedHaar，SpatialPooling，LDCF和Regionlets，这些方法都是ICF结构的变体。
之前的基于cnn的方法使用的是人工设计的特征，最早的方法ConvNet的输入是YUV图像，DBN-Isol和DBN-Mut的输入是HOG，MultiSDP使用HOG+CSS作为输入，JointDeep和SDN使用YUV+梯度作为输入。本文直接使用RGB图像作为输入。

训练数据：使用Caltech，KITTI，ImageNe，Places。Caltech数据集是行人录像，对Caltech数据3帧提取一次得到Caltech10x，数据量增加十倍。

proposal提取
使用SquaresChnFtrs，将其从决策树转化为convnet。SquaresChnFtrs包含2048个2层决策树，使用超过十个特征通道（HOG+LUV），对通道的矩形块进行加和输入到树的分离节点中。主要转化pooling和决策树，将sum-pooling映射为内积运算，决策树映射成两个隐含层，通过线性加权得到树的输出。

普通的卷积网络
先使用CifarNet，解决Cifar-10分类问题的网络，输入是RGB图像。网络结构如下图所示。
这里写图片描述

CifarNet网络设置
使用SquaresChnFtrs提取proposal，IOU作为正负样本的阈值，模型大小128*64，固定正负样本数目比例为1：5。通过调整卷积滤波器大小发现对结果影响不大，网络结构保持32-32-64，滤波器大小为5*5。网络层数，图像通道对结果影响也不大。
网络在Caltech的实验结果不错，超过了SDN，如下表所示：

大规模卷积网络
使用RCNN为基础，proposal提取使用SquaresChnFtrs，微调后Caltech的测试MR为25.9%。使用场景数据库Places实验结果发现与ImageNet类似，表明ImageNet没什么特别的。使用Caltech10x进行微调，MR降到23.3%，说明微调的数据多也有好处。
仅使用Caltech直接进行训练AlexNet，效果也不错，MR为32.4%。

不同方法的结果对比如下图所示：
这里写图片描述