A multi-branch separable convolution neural network for pedestrian attribute recognition

动机:
DSC层由于其高效的学习能力和简化的参数集,已经在各种应用中得到应用。研究人员多年来利用卷积神经网络(convolutional neural networks, CNN)提出了各种解决方案,但是我们将DSC层引入到CNN中来解决行人属性识别的问题。
多年来,RGB一直是计算机视觉研究人员选择的颜色空间。其他著名的颜色空间包括YCrCb, HSV和Lab。在分离色度和亮度分量时,每个颜色空间都有其优点。对于视频的颜色压缩任务,YCrCb已被证明是非常有效的。HSV与设备无关,尤其是在颜色检测方面,它已经被证明是非常有用的(例如皮肤或毛发检测)。我们的目标是利用HSV的这种强大特性来帮助我们解决属性识别的问题。Lab与人类对颜色的感知非常接近,因此Lab中的颜色可以用欧几里得距离进行比较,结果表明也与人类对颜色的感知相匹配。

贡献:
据我们所知,这是第一个介绍深度可分卷积神经网络的行人属性识别问题的工作。
利用较少的参数有效地训练了多层网络。
使用新颖的颜色空间来训练网络。
在两个最具挑战性的公共数据集上,所提出的方法比现有的方法有更好的识别结果。

网络框架:
DSC层:

在这里插入图片描述
每个输入通道(在我们的例子中是3个)都独立于其他通道进行处理。分割的通道与一个3*3空间滤波器进行卷积。与输出通道连接,然后用1 1n滤波器卷积。n匹配我们的通道的深度。这个过程大大减少了网络的参数数量,计算更少,速度更快模型更小。

总体框架:
在这里插入图片描述
每个分支的输入分别是YCrCb、Lab、HSV颜色空间中的图像。每个分支的输出被连接起来,并在网络输出之前流经一系列全连接层。由图可以看出,。第一个块的网络深度为32通道,第二个块的深度为64通道,第三个块的深度为128通道,第四个块的深度为256通道,最后一个块的深度为512通道。每个YCrCb、Lab和HSV层的输出大小为2048。然后将这三个层连接到一个大小为6144的层。然后,网络包括三个大小分别为2048、1024和215的全连接(fc)层,最后是输出层。这个网络表示为dscl_fc_based.。
之后做了一个该网络的变体,将YCrCb、Lab和HSV层的输出连接起来,构造一个4×512×3的三维张量。将其视为大小为4×512的彩色图像,经过三次depthwise conv -> LeakyReLu -> BN -> max-pool ,输出被压扁到128个神经元的大小,然后是dropout层(prob = 0.35)。最终输出层的大小等于被测试参数的数量。该体系结构极大地减少了参数的数量,同时仍然保持了良好的精度结果,被称为dscl_conv_based。

参数数量如下表所示:
在这里插入图片描述

实验:
作者在PETA和RAP两个数据集上进行实验,实验结果如下所示:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
作者用这两幅图来展示实验结果,是因为在accuracy方面取得的进步十分可观,通过表格二中的数据对比可以很明显的看出来。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值