A Review on Real Time Tracking and Face Recognition System 论文 部分内容


A Review on Real Time Tracking and Face Recognition System

1、传统物体检测的三个步骤:

  1. 信息区域提取(滑动窗口),缺点是信息冗余,时间复杂度高。
  2. 特征提取(HOG特征,Harr-like特征),缺点是提取的特征单一,复杂条件下无法有效提取特征,鲁棒性不强。
  3. 分类(SVM,AdaBoost, DPM(deformable part-based model))。
    缺点总结:1)the generation of candidate bounding boxes (BBs) with a sliding window strategy is redundant, inefficient, and inaccurate and 2) the semantic gap cannot be bridged by the combination of manually engineered low-level descriptors and discriminatively trained shallow models。

2、深度学习目标检测的基础算法:RCNN,YOLO,SSD

3、深度学习目标检测的基础论文:

  • 目标检测是行为识别,人脸检测,分割,自动驾驶等应用的基础。研究最多的应用主要是如下几个方向:
    1. 通用物体检测:R-CNN系列
    2. 显著物体检测:
  • 28 N. Liu et al., “Predicting eye fixations using convolutional neural networks,” in Proc. CVPR, 2015, pp. 362–370
  • 29 E. Vig et al., “Large-scale optimization of hierarchical features for saliency prediction in natural images,” in Proc. CVPR, 2014, pp. 2798–2805
    3. 人脸检测:
  • 30 H. Jiang and E. Learned-Miller, “Face detection with the faster R-CNN,” in Proc. FG, 2017, pp. 650–657
  • 31 D. Chen et al., “Joint cascade face detection and alignment,” in Proc. ECCV, 2014, pp. 109–122.
    4. 行人检测:
  • 33 D. Chen et al., “Joint cascade face detection and alignment,” in Proc. ECCV, 2014, pp. 109–122.
  • 34 F. Yang et al., “Exploit all the layers: Fast and accurate CNN object detector with scale dependent pooling and cascaded rejection classifiers,” in Proc. CVPR, 2016, pp. 2129–2137

4、深度学习简史

5、最近兴起的主要原因:

  1. back-propagation algorithm (1990s) ,上一次 prosperity 的原因;
  2. 大数据(ImageNet);
  3. GPU;
  4. 网络结构的优化和发展;
    4.1. autoencoder (自编码) 和 restricted Boltzman machine (受限玻尔兹曼机);
    4.2. dropout (可以缓解过拟合,加深网络深度);
    4.3. batch normaliation (BN, 有效训练很深的网络);
    4.4. 大量的网络结构:AlexNet,Overfeat, GoogleLeNet, Visual Geometry Griop(VGG),Residual Net(ResNet);
    4.5. rectified linear unit (ReLU);
    4.6. pooling(max ,average, L2);
    4.7. fully connected(FC) layers;
    4.8. stochastic gradient descent(SGD);
  5. 深度学习的特点:
    5.1. 分层特征表示(自动从数据学习);
    5.2. 更深的网络提供了子数级的表达特征能力;
    5.3. 可以多任务学习(如RCNN中的物体分类和边框回归);
    5.4. 为提高经典的计算机视觉任务提供了新的研究视角(图片超分辨率重构,图像分类,图像恢复,人脸识别,行人检测,视频分析);

6、通用目标检测

分为两大类,与传统方法类似的两阶段目标检测算法:R-CNN, SPP-net, Fast R-CNN, Faster R-CNN, R-FCN, R-FCN, FPN, Mask R-CNN 。
单阶段目标检测算法:MultiBox, AttentionNet,G-CNN, YOLO,SSD, YOLOv2,DSSD。

  • 单阶段(Region Proposal-Based Framework)重点讲解了 R-CNN,SPP-Net,Fast R-CNN,Faster R-CNN,R-FCN,FPN, Mask R-CNN,

  • 两阶段(Region Proposal-Based Framework)重点讲解了 YOLO,SSD

  • 实验评估 ,三个数据集PASCAL VOC 2007, PASCAL VOC 2012, Microsoft COCO。

7、显著目标检测

8、人脸检测

最近,已经提出了一些基于CNN的面部检测方法[167] - [169]。

  • 由于对象坐标的独立回归导致定位不太准确, [167]提出了一种新的IoU损失函数,用于联合预测盒子的四个边界。
  • [168]提出了一种深密人脸检测器(DDFD)来进行多视图人脸检测,它能够检测各种方向的人脸,而不需要姿势/地标注释。
  • [169]提出了一种新颖的基于深度学习的面部检测框架,其收集来自局部面部部分(例如,眼睛,鼻子和嘴巴)的响应,以解决严重遮挡和无约束姿势变化下的面部检测。
  • [170]提出了一种名为ScaleFace的规模友好型检测网络,它将大范围的目标尺度分成更小的子范围。在这些分量表上构建不同的专用子网,并将其组合成单个子网以进行端到端优化。
  • [171]设计了一个有效的CNN来预测人脸的比例分布直方图,并采用这个直方图来指导图像的放大视图和缩小视图。

将人脸检测和其他任务(3-D modeling and face landmarks)相结合

  • [174]提出了一个统一的端到端FCN框架,称为DenseBox,共同进行人脸检测和地标定位。
  • [175]提出了一个多任务判别学习框架,它将ConvNet与固定的3-D平均人脸模型集成在一个端到端方法。
  • [176]提出了一种深度级联多任务框架,称为多任务级联卷积网络(MTCNN),它利用无约束环境中的人脸检测和对齐之间的固有相关性,以粗略精细的方式提高检测性能。
  • [177]提出了一种基于紧凑型CNN级联的正面检测的新解决方案。该方法采用三个简单CNN的级联来逐步生成,分类和细化候选对象位置。
  • 为了减少大型姿势变化的影响,[32]提出了由监督转变网络表示的级联CNN。该网络采用多任务RPN同时预测候选面部区域以及相关的面部地标,并采用通用R-CNN来验证有效面部的存在。
  • [8]提出了一种基于FCN的三级级联结构,而在每个阶段,多尺度FCN用于改善人脸可能的位置。
  • [178]提出了一个统一的框架,利用联合训练不同的CNN,取得了更好的结果。

实验评估

  1. FDDB 数据集
  2. 经典方法得分相似,基于CNN的方法得分更高。
  3. 人脸检测中的优化策略:设计新颖的优化损失,修改通用检测流水线(网络),构建有意义的网络级联,调整规模感知检测,以及学习多任务共享CNN功能

9、行人检测

  • [203]试图使通用的Faster R-CNN [17]适应行人检测。他们通过将 boosted forests 添加到共享的 high-resolution conv feature maps 并使用RPN处理小型实例和难负面示例来修改downstream classifier。
  • 为了处理复杂的遮挡,受DPM [24]的启发,[204]提出了一个名为DeepParts的深度学习框架,该框架基于广泛的部分检测器的集合做出决策。 DeepParts在处理弱标签数据,低IoU的正proposals以及部分遮挡方面具有优势。
  • CompACT-Deep采用复杂感知级联来结合手工制作的功能和微调的DCNN [195]。
  • 基于Faster R-CNN,[205]提出了用于行人检测的多光谱DNN,以组合来自彩色和热图像的补充信息。
  • [206]提出了一个任务协助CNN,用多个数据源共同学习多个任务,并将行人属性与语义场景属性结合在一起。
  • [207]提出了一种DNN融合架构,用于快速和稳健的行人检测。
  • [59]提出了一种新颖的解决方案,通过优化其大部分阶段,使通用物体检测管道适应行人检测。
  • [208]通过重复使用转换特征贴图训练了一组增强决策模型,并通过简单的像素标记和其他互补的手工制作功能获得了进一步的改进。
  • [209]提出了一种基于减少存储区域的深度CNN架构,它将来自ACF检测器和SVM分类器的区域响应融合到R-CNN中。
  • [33]解决了人类感知导航的问题,并提出了一种基于视觉的人物跟踪系统,该系统由多个摄像头传感器引导

实验评估

  1. Caltech Pedestrian 数据集

10、PROMISING FUTURE DIRECTIONS AND TASKS

  1. To improve localization accuracy on small objects under partial occlusions
  • To improve localization accuracy on small objects under partial occlusions
  • Scale Adaption
  • Spatial Correlations and Contextual Modeling
  1. to release the burden on manual labor and accomplish real-time object detection
  • Cascade Network
  • Unsupervised and Weakly Supervised Learning
  • Network Optimization
  1. to extend typical methods for 2-D object detection to adapt 3-D object detection and video object detection
  • 3-D Object Detection
  • Video Object Detection

END

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值