行人检测“Joint Deep Learning for Pedestrian Detection”

最新推荐文章于 2024-01-09 16:59:50 发布

cv_family_z

最新推荐文章于 2024-01-09 16:59:50 发布

阅读量2.9k

点赞数 1

分类专栏：行人检测深度学习

本文链接：https://blog.csdn.net/cv_family_z/article/details/49682537

版权

深度学习同时被 2 个专栏收录

105 篇文章 0 订阅

订阅专栏

行人检测

13 篇文章 0 订阅

订阅专栏

动机：行人检测中的特征提取，形变处理，遮挡处理和分类联合学习。深度网络可以将各部分放到不同的网络层并使用BP进行优化。

这里写图片描述

相关工作：
用于行人检测的特征：Haar,HOG,SIFT,一阶颜色特征如颜色直方图，二阶颜色特征如CSS,co-occurence特征，纹理特征LBP，其他形式的特征包括协方差，深度图，分割结果，3D几何，深度学习局部最大或平均池化特征。这些特征没有考虑行人的形变特征。
处理形变：DPM
处理遮挡：主要用part进行处理

方法描述
文章深度网络框架如下图所示，每层功能描述如下：
1.filtered data map的获取:第一个卷积层对三通道的输入图像使用9*9*3的滤波器，输出64个特征图，激活函数用tanh(x)
2.特征图获取：平均池化
3. part detection map:第二个卷积层，20个part filters进行卷积
4. part score:形变处理层
5. 估计标签：可视化推理，某bbox是否包含行人
这里写图片描述

准备输入数据
输入的图像数据包含三个通道：YUV尺寸为84*28尺寸的Y通道，YUV三通道42*14串联空白加零，4个边缘图串成42*24大小图像。

生成part检测图
第二个卷积层的part滤波器具有不同的大小，设计了三层不同尺寸的滤波器，如下图所示，上层的滤波器包含下层滤波器的部分，上层的parts是有可能存在的遮挡情况。
这里写图片描述

deformation 层
形变层输入P个part检测图输出得分 $s={s_1,...,s_p}$ ,2D summed map是part检测图和形变图的加和，即：
$B_p=M_p+\sum c_{n,p}D_{n,p}$ (1)
$D_{n,p}$ 表示part p的第n个形变图， $s_p$ 由 $B_p$ 全局最大池化得到：
$s_p=max_{x,y}b_p^{x,y}$
part位置：
$(x,y)_p=arg max_{x,y}b_p^{x,y}$
$c_{n,p},D_{n,p}$ 都是可学到的参数。