动机:行人检测中的特征提取,形变处理,遮挡处理和分类联合学习。深度网络可以将各部分放到不同的网络层并使用BP进行优化。
相关工作:
用于行人检测的特征:Haar,HOG,SIFT,一阶颜色特征如颜色直方图,二阶颜色特征如CSS,co-occurence特征,纹理特征LBP,其他形式的特征包括协方差,深度图,分割结果,3D几何,深度学习局部最大或平均池化特征。这些特征没有考虑行人的形变特征。
处理形变:DPM
处理遮挡:主要用part进行处理
方法描述
文章深度网络框架如下图所示,每层功能描述如下:
1.filtered data map的获取:第一个卷积层对三通道的输入图像使用9*9*3的滤波器,输出64个特征图,激活函数用tanh(x)
2.特征图获取:平均池化
3. part detection map:第二个卷积层,20个part filters进行卷积
4. part score:形变处理层
5. 估计标签:可视化推理,某bbox是否包含行人
准备输入数据
输入的图像数据包含三个通道:YUV尺寸为84*28尺寸的Y通道,YUV三通道42*14串联空白加零,4个边缘图串成42*24大小图像。
生成part检测图
第二个卷积层的part滤波器具有不同的大小,设计了三层不同尺寸的滤波器,如下图 所示,上层的滤波器包含下层滤波器的部分,上层的parts是有可能存在的遮挡情况。
deformation 层
形变层输入P个part检测图输出得分
s=s1,...,sp
,2D summed map是part检测图和形变图的加和,即:
Bp=Mp+∑cn,pDn,p
(1)
Dn,p
表示part p的第n个形变图,
sp
由
Bp
全局最大池化得到:
sp=maxx,ybx,yp
part位置:
(x,y)p=argmaxx,ybx,yp
cn,p,Dn,p
都是可学到的参数。
形变层可表示为DPM中的二次形变约束,即:
可用公式(1)表示为如下形式:
过程如下图所示:
Visibility推理及分类
part j在l层的得分和visibility表示为
slj,hlj
,l层part的visibility为
hl=[hl1,...,hlPl]T
,BP模型如下:
论文的方法增加part 2层和3层的隐含节点,这样可以将1层和2层的信息直接传播到分类器,如下图,用白色节点表示:
在论文中,特征,形变模型,visibility关系联合学习,为了学习两个卷积层和形变层的参数,通过得分s进行反向传播:
实验结果
在Caltech上的实验结果对比如下: