目标检测模型以及一些网络R-CNN、SPP-NET、Fast R-CNN、Faster R-CNN

计算机视觉问题

  1. semantic segmentation(no object,just pixels)
  2. classification+localization single object(异常检测)
  3. objective detection 2D&3D
  4. instance segmentation

分类问题

  • 离散量
  • x -->y
  • y is labels
  • 逼近数据集
  • 两类问题
  • 多类问题
  • 多标签问题
  • core:一个目标属于某各类的概率

回归问题

分类模型可以将回归问题的输出离散化,回归问题可以将分类问题的输出连续化,下面是两者的区别
在这里插入图片描述
回归问题与分类问题
在这里插入图片描述

some important Terms

  • Recall(对的对了,它计算的是所有检索到的item占所有"应该检索到的item"的比例,不care目标之外的 集合成员)
  • Precision(它计算的是所有被检索到的item中,"应该被检索到"的item占的比例)
  • iou (多用于位置检测,即检测结果(DetectionResult)与 Ground Truth 的交集比上它们的并集)
    在这里插入图片描述
    这篇文章介绍了一下这些术语

目标检测问题

  • what and where
  • 最后的classify loss and objection loss 要相加
  • object detective as regression? yes!
1. 目标检测的方法
  • sliding window(计算量太大,满足不了实时性)
  • region proposals/ Selective Search, the new idea
2. 特征提取

网络模型R-CNN

1. RCNN(Selective Search + CNN + SVM)

RCNN的简要步骤如下
(1) 输入测试图像
(2) 利用选择性搜索Selective Search算法在图像中从下到上提取2000个左右的可能包含物体的候选区域Region Proposal
(3) 因为取出的区域大小各自不同,所以需要将每个Region Proposal缩放(warp)成统一的227x227的大小并输入到CNN,将CNN的fc7层的输出作为特征
(4) 将每个Region Proposal提取到的CNN特征输入到SVM进行分类
(5) Bounding box 回归

但是最开始提取的2000个region还是太多了。feature map中保留了图像的原始信息,所以可以只进行一次CNN,然后再feature map上找到selective search的框。现在的问题是大小不一,后面的全连接层需要相同的大小,何恺明提出的spp-net解决了这个问题
在这里插入图片描述

2.SPP-NET

将RCNN不断地进行feature map的提取转换为在SPP-NET中的只计算一个feature map,其中的spatial pyramid pooling解决了框的大小不一的问题。
在这里插入图片描述

SPP-NET论文详解

FAST-RCNN

在这里插入图片描述
把selective search 也直接在featureMap上进行,比spp更进一步

  • Rol pooling:ROIs Pooling(region of interest)顾名思义,是Pooling层的一种,而且是针对RoIs的Pooling,他的特点是输入特征图尺寸不固定,但是输出特征图尺寸固定
    roi pooling

  • bbox-regressor:对于窗口一般使用四维向量(x,y,w,h)(x,y,w,h) 来表示, 分别表示窗口的中心点坐标和宽高。 对于图 2, 红色的框 P 代表原始的Proposal, 绿色的框 G 代表目标的 Ground Truth, 我们的目标是寻找一种关系使得输入原始的窗口 P 经过映射得到一个跟真实窗口 G 更接近的回归窗口GG
    bbox-regressor
    在这里插入图片描述

  • 没有用SVM 使用softmax

  • 也就是说,之前R-CNN的处理流程是先提proposal,然后CNN提取特征,之后用SVM分类器,最后再做bbox regression,而在Fast R-CNN中,作者巧妙的把bbox regression放进了神经网络内部,与region分类和并成为了一个multi-task模型,实际实验也证明,这两个任务能够共享卷积特征,并相互促进。

FASTER-RCNN

最大的改进就是将region proposal由一些方法变成一个网络,因为之前的网络显示,region proposal过程是整个目标识别过程当中最耗时的部分。(RPN使用其来代替原来的selective search)
在这里插入图片描述
在这里插入图片描述

RPN(Region Proposal Network)

a very important concept: anchor
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

YOLO/SSD

速度快,但是不同目标检测能力不如faster-rcnn

tip

  • 对于凸优化问题,全局最优的一定是局部最优的

problem

  1. 再详细的了解全连接层造成的影响
  2. 搜集所讲网络的详细信息

下一节课

mAP
yolo and ssd

reference:

一文读懂目标检测:R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD

人脸检测

  1. 首先了解其基本原理 分类+回归
  2. 看论文
  3. 最暴力的做法(找一个basenet然后再做回归)
  4. IEEE的论文格式来写实验报告。1.abstract 2.introduction 3. methods 4.results 5.feature work
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值