Faster rcnn相关文章研究

最新推荐文章于 2023-05-05 11:17:48 发布

Bruce_0712

最新推荐文章于 2023-05-05 11:17:48 发布

阅读量309

点赞数

分类专栏： Deep Learning

Deep Learning 专栏收录该内容

61 篇文章 3 订阅

订阅专栏

一、效果简介

1 多类目标检测，基于VOC2012数据集

MAC :The number of adds andmultiplications

mAP:Mean average precision

GPU：NVIDIA Titan X

我们目前的人脸检测模型是：Faster R-CNN + VGG_CNN_M_1024,即VGG-16的简化版。

注：PVANET+的MAC为十亿级别，即约37亿。

2 人脸检测，基于fddb数据集

Xiaomi方法得分最高，Faster rcnn方法紧随其后。

3 行人检测，基于KITTI数据集

KITTI数据集：包含汽车、行人和骑自行车人三类目标，分为容易、适中和难三个难易程度。包含7481张训练验证图片（已标注），7518张测试图像（未标注）。

二、文章思路分析

1 多类目标检测

(1) R-FCN +Resnet-101

原文：R-FCN: Object Detection via Region-based Fully Convolutional Networks

Faster R-CNN +++：即R-FCN + Resnet-101；速度快了2.5倍。

主要思路： R-FCN主要通过移除最后的全连接层进行加速，使得结构中所有可学习参数都是卷积，且可共享，并且用到了最新的residual network。

如上图，RPN用于生成候选窗口，ROI池化层用于计算目标窗口得分，通过设定阈值，最终可以将ROIs(region of interest)分成目标或背景。

(2) PVANET

原文：PVANET: Deep but Lightweight Neural Networks for Real-time Object Detection

PVANET，即pva-faster-rcnn；计算成本降低了十倍，速度降至46ms。

核心部分：C.ReLU(concatenatedrelu)结构，在conv和ReLU中间添加Negation，concatenation,scale/shift部分，达到‘lesschannels with more layers’的目的，从而减少网络参数、降低计算量。

PVANET结构如上图所示，包含C.ReLU,Residual,inception等部分。Inception适用于不同尺寸，大小的接收域，并在接收域获得多尺度目标。在Inception层中增加Residual，解决较深网络的训练问题。

RPN部分生成25个chchors，对应5种尺寸(3,6,9,16,25)，5种宽高比(0.5,0.667,1.0,1.5,2.0),可见包含尺度更加丰富。

2 人脸检测

(1) xiaomi

原文：Bootstrapping Face Detection with Hard Negative Examples

在faster-rcnn上做改进，运用较难检测的负样本，残差网络，目前FDDB得分最高。

主要思路：

1、hard negative mining：负样本挖掘技术，用初始训练的caffe模型，检测训练负样本（faster rcnn中负样本随机产生），得到难检测的负样本。将难负样本加入到训练集负样本中，重新训练，如此重复训练，直到caffe模型效果不再提高。

注意：训练时保持正负样本1:3，将难负样本加入重新训练时，保持正负样本1:3，但保证加入的难负样本在里面。

2、难负样本选择：当检测区域和任何一个人脸标注位置的maximunIOU(intersection over union,交并比)小于0.5时，认为是难负样本。

3 行人检测

(1) RPN+BF

原文：Is Faster R-CNN Doing Well for Pedestrian Detection?

主要思路：

1、解决输入到分类器中的特征图(小目标)分辨率不高问题：采用‘a trous’策略，将特征图放大，从而增加分辨率。

2、解决难负样本较难检测的问题：采用cascaded Boosted Forest(BF)，训练分为6个阶段，每个阶段有不同个trees，开始训练正负样本相同，之后每个阶段不断添加难负样本(数量为正样本的10%)到训练集中。

整体结构如上图，RPN(宽高比统一为0.4，9种尺度，在高40基础上不断扩大1.3倍)用于生成候选窗口，ROI池化层可以同时提取多个卷积层特征(conv3_3,conv4_3,conv5_3)，并将这些特征级联；BoostedForest实现分类功能。

(1) MSCNN

原文： AUnified Multi-scale Deep Convolutional Neural Network for Fast ObjectDetection

主要解决问题：如上图，自然场景(黄色框)目标存在多种尺度大小，所以单一的RPNanchors(阴影部分)无法完满匹配目标。

主要思路：

1、网络结构中，在较浅层检测小目标，在较深层检测大目标，最后检测器联合，形成多尺度检测器。

2、用反卷积层实现特征图上采样代替输入图片上采样，提高了特征图分辨率，可以较好地检测小目标，同时减少了计算。

整体结构包括：proposal子网络+ detection子网络。

proposal子网络如上图所示。

proposal子网络如上图所示。

三、研究结论及意义

结论：

1、proposal与目标尺寸不匹配问题:(1)更改RPN尺寸，宽高比，以适应自然场景；(2)在神经网络中采取分层(深层,浅层)检测策略，最后级联检测器，形成多尺度检测器。

2、检测小目标难的问题：将特征图放大，提高分辨率，如a trous’、反卷积策略。

3、加速:(1)移除最后的全连接层，实现更多计算资源共享；(2)减少特征图channels数量，以减少参数个数，从而减少计算量。

4、提高准确率:(1) hard negative mining;(2)使用更深的网络，如residualnetwork。

意义：

针对**环境下人脸检测改进策略的思考：

1、将RPN宽高比统一为1:1，9种尺度，在高40基础上不断扩大1.3倍;

2、采取hard negative mining策略+ residual network ；

3、用PVANET网络重新训练。

Bruce_0712

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Faster rcnn相关文章研究

一、效果简介1 多类目标检测，基于VOC2012数据集 MAC :The number of adds andmultiplications mAP:Mean average precision GPU：NVIDIA Titan X 我们目前的人脸检测模型是：Faster R-CNN + VGG_CNN_M_1024,即VGG-16的简化版。注...
复制链接

扫一扫