深度卷积神经网络的行人检测 (pedestrian detection)

行人检测 (pedestrian detection)是智能交通视频分析的基础技术之一。

1 现有的方法

  • 基于HOG方法
  • 基于DPM
  • 基于卷积神经网络

基于HOG方法已经研究了很多年,有一些现成的代码实现,速度看起来也是比较快的,可以做到500帧每秒的检测速度(640*480,GTX295)。基于DPM的方法其实也是基于HOG的,只不过为行人的图像构建可以变形的模型,这样在检测行人的时候更为鲁棒。基于DCNN的模型是最近随着深度学习的盛行而来的,目前看起来正确率相对较高,但是速度相对较慢。

Denso IT Laboratory在网上Post的这段视频是我看到的第一个基于DCNN的实时行人检测监测。impressive! 实现的平台是AMD的Tegra K1,适合嵌入式设备。(昨天还有AMD的工程师来问我们是否有兴趣在APU上搞点东西,我现在也比较看好APU了。)使用了9层CNN网络,还可以输出行人到摄像头的距离,行人高度,是否摔倒等信息(orientation)。

这里写图片描述

2 数据集

目前大家常用的行人检测数据集主要是:

INRIA数据库: 训练集有正样本614张(包含2416个行人),负样本1218张;测试集有正样本288张(包含1126个行人),负样本453张。图片中人体大部分为站立姿势且高度大于100个象素,部分标注可能不正确。

Caltech行人数据库: 规模较大的行人数据库,采用车载摄像头拍摄,约10个小时左右,视频的分辨率为640x480,30帧/秒。标注了约250,000帧(约137分钟),350000个矩形框,2300个行人,另外还对矩形框之间的时间对应关系及其遮挡的情况进行标注。

ETH行人数据库:该数据库采用一对车载的AVT Marlins F033C摄像头进行拍摄,分辨率为640x480,帧率13-14fps,给出标定信息和行人标注信息。

3 算法分析

paper: Real-time Pedestrian Detection Using LIDAR and Convolutional Neural Networks

Denso是一个做视频分析的公司,文章比较难找到。这篇Denso2006年的文章,描述了这个系统的早期版本:

  • 使用了两层的CNN网络。输入是30*60。这个结构还是一个Classification的网络。这个网络比较小。
    这里写图片描述
  • 然后对整个图片使用滑动窗口。1. 结合LIDAR光线探测器来减少搜索的区域; 2. 基于flat world假设(就是人总是站在路上的,所以可以实事先画出道路区域,这个对固定摄像头是有效的),减少搜索区域。
  • 实现的速度(那时候还是P4的时代)
    这里写图片描述

Beyond Pedestrian Detection: Deep Neural Networks Level-Up Automotive Safety

这篇文章是Denso在GPU计算网站给出的算法框架,看起来很简单,就是3层卷积,3层Maxpool和3层的Full connected .

这里写图片描述

最后一层既包括Classification,又有Regression。
这里写图片描述

others:

Tegra 1:
NVIDIA® Kepler™ 架构 (NVIDIA 4-加-1 (4-Plus-1™) 四核 ARM Cortex-A15 )
192 个 NVIDIA CUDA
最大内存容量 8 GB
28 纳米
364.8 GFLOPs (Intel i7 只有91.87 GFLOPS)
power: <2W (while Titian >250w,能效比是GPU的10倍?)


如何做Location?

  • 6
    点赞
  • 34
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
### 回答1: 可以列举出一些经典的深度神经网络,如ResNet、Inception-v3、VGG等,这些网络在很多行人重识别的任务中表现不错。同时,还可以考虑使用基于Transformer的模型,如ViT和DeiT等,这些模型在图像识别领域也有很好的表现,可能对行人重识别也有一定的帮助。 ### 回答2: 在行人重识别领域,深度神经网络是一种最常用的方法。以下是常见的几种深度神经网络模型: 1. ResNet(残差网络):ResNet是一种经典的深度神经网络模型,通过使用残差连接来解决梯度消失和梯度爆炸等问题。在行人重识别中,ResNet可以通过训练大规模的数据集来学习到更具有表征能力的特征。 2. GoogLeNet:GoogLeNet是由Google提出的一种深度卷积神经网络模型,其主要特点是通过使用多个并行的卷积层和降维层来提高网络的表征能力。在行人重识别中,GoogLeNet可以通过多层次的卷积和池化操作来提取更具有判别性的特征。 3. VGGNet(Visual Geometry Group Network):VGGNet是由牛津大学的研究团队提出的一种深度卷积神经网络模型,其特点是采用了相对较小的卷积核和更深的网络结构。在行人重识别中,VGGNet可以通过更深层次的卷积和池化操作来提取更丰富的特征。 4. InceptionNet:InceptionNet是由Google提出的一种深度卷积神经网络模型,其特点是通过多个不同大小的卷积核和池化层来提取多尺度的特征。在行人重识别中,InceptionNet可以通过提取多尺度的特征来更好地捕捉行人的外貌和姿态信息。 需要注意的是,以上仅是行人重识别领域中深度神经网络的一些常见模型,实际应用中可能还会结合其他技术和方法进行深度特征提取和行人重识别。 ### 回答3: 在行人重识别的深度神经网络中,常见的模型包括以下几种: 1. 深度残差网络(Deep Residual Network,ResNet):ResNet 是一种非常经典的深度神经网络,由于其具有良好的梯度传播和模型拟合能力,被广泛应用于行人重识别任务中。 2. 三流网络(Triplet Network):三流网络是一种常用的神经网络模型,其主要思想是通过学习一个特征空间,在该空间中行人的特征向量之间的欧几里得距离能够表示他们的身份相似性。 3. Siamese网络:Siamese网络是一种双支路结构的神经网络,通过输入两个行人图像,共享神经网络的权重,学习得到一个特征空间,使得同一个行人的图像在该空间中距离更近。 4. DuATM网络(DuATM Network):DuATM网络利用了注意力机制来提升行人重识别性能。它通过自适应注意力网络(Adaptive Attention Network)来自动选择和调整对行人图像的关注区域,使得关注到的区域更加准确,从而提高了重识别的准确性。 5. PCB网络(Part-Based Convolutional Baseline):PCB网络通过将行人图像划分为多个部分,并分别提取每个部分的特征,最后将这些特征进行融合,从而得到一个更加鲁棒的特征表示。这种分解和融合的方式使得网络能够更好地处理行人图像中的位姿和遮挡变化。 除了以上提到的几种深度神经网络,还有一些其他的模型和方法,如行人边界框回归网络(Pedestrian Box Regression Network)、多尺度网络(Multi-Scale Network)等,这些模型都在行人重识别任务中发挥重要作用,不同的模型适用于不同的场景和数据集,可以根据具体情况选择合适的模型来进行行人重识别的研究和应用。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值