目标检测模型以及一些网络R-CNN、SPP-NET、Fast R-CNN、Faster R-CNN

最新推荐文章于 2023-11-30 15:17:46 发布

chenduoQi

最新推荐文章于 2023-11-30 15:17:46 发布

阅读量745

点赞数

分类专栏：课程笔记文章标签：目标检测模型 R-CNN FASTER R-CNN FAST R-CNN

本文链接：https://blog.csdn.net/the__future/article/details/84746620

版权

课程笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

计算机视觉问题

semantic segmentation(no object,just pixels)
classification+localization single object(异常检测)
objective detection 2D&3D
instance segmentation

分类问题

离散量
x -->y
y is labels
逼近数据集
两类问题
多类问题
多标签问题
core：一个目标属于某各类的概率

回归问题

分类模型可以将回归问题的输出离散化，回归问题可以将分类问题的输出连续化，下面是两者的区别
在这里插入图片描述
回归问题与分类问题

some important Terms

Recall(对的对了，它计算的是所有检索到的item占所有"应该检索到的item"的比例，不care目标之外的集合成员)
Precision（它计算的是所有被检索到的item中,"应该被检索到"的item占的比例）
iou (多用于位置检测，即检测结果(DetectionResult)与 Ground Truth 的交集比上它们的并集)

这篇文章介绍了一下这些术语

目标检测问题

what and where
最后的classify loss and objection loss 要相加
object detective as regression? yes!

1. 目标检测的方法

sliding window(计算量太大，满足不了实时性)
region proposals/ Selective Search, the new idea

2. 特征提取

网络模型R-CNN

1. RCNN（Selective Search + CNN + SVM）

RCNN的简要步骤如下
(1) 输入测试图像
(2) 利用选择性搜索Selective Search算法在图像中从下到上提取2000个左右的可能包含物体的候选区域Region Proposal
(3) 因为取出的区域大小各自不同，所以需要将每个Region Proposal缩放（warp）成统一的227x227的大小并输入到CNN，将CNN的fc7层的输出作为特征
(4) 将每个Region Proposal提取到的CNN特征输入到SVM进行分类
(5) Bounding box 回归

但是最开始提取的2000个region还是太多了。feature map中保留了图像的原始信息，所以可以只进行一次CNN，然后再feature map上找到selective search的框。现在的问题是大小不一，后面的全连接层需要相同的大小，何恺明提出的spp-net解决了这个问题
在这里插入图片描述

2.SPP-NET

将RCNN不断地进行feature map的提取转换为在SPP-NET中的只计算一个feature map，其中的spatial pyramid pooling解决了框的大小不一的问题。
在这里插入图片描述

SPP-NET论文详解

FAST-RCNN

在这里插入图片描述
把selective search 也直接在featureMap上进行,比spp更进一步

Rol pooling：ROIs Pooling（region of interest）顾名思义，是Pooling层的一种，而且是针对RoIs的Pooling，他的特点是输入特征图尺寸不固定，但是输出特征图尺寸固定
roi pooling
bbox-regressor：对于窗口一般使用四维向量(x,y,w,h)(x,y,w,h) 来表示，分别表示窗口的中心点坐标和宽高。对于图 2, 红色的框 P 代表原始的Proposal, 绿色的框 G 代表目标的 Ground Truth，我们的目标是寻找一种关系使得输入原始的窗口 P 经过映射得到一个跟真实窗口 G 更接近的回归窗口G^G。
bbox-regressor
没有用SVM 使用softmax
也就是说，之前R-CNN的处理流程是先提proposal，然后CNN提取特征，之后用SVM分类器，最后再做bbox regression，而在Fast R-CNN中，作者巧妙的把bbox regression放进了神经网络内部，与region分类和并成为了一个multi-task模型，实际实验也证明，这两个任务能够共享卷积特征，并相互促进。

FASTER-RCNN

最大的改进就是将region proposal由一些方法变成一个网络，因为之前的网络显示，region proposal过程是整个目标识别过程当中最耗时的部分。（RPN使用其来代替原来的selective search）
在这里插入图片描述

RPN（Region Proposal Network）

a very important concept: anchor
在这里插入图片描述

YOLO/SSD

速度快，但是不同目标检测能力不如faster-rcnn

tip

对于凸优化问题，全局最优的一定是局部最优的

problem

再详细的了解全连接层造成的影响
搜集所讲网络的详细信息

下一节课

mAP
yolo and ssd

reference：

一文读懂目标检测：R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD

人脸检测

首先了解其基本原理分类+回归
看论文
最暴力的做法（找一个basenet然后再做回归）
IEEE的论文格式来写实验报告。1.abstract 2.introduction 3. methods 4.results 5.feature work

chenduoQi

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
目标检测模型以及一些网络R-CNN、SPP-NET、Fast R-CNN、Faster R-CNN

计算机视觉问题semantic segmentation(no object,just pixels)classification+localization single object(异常检测)objective detection 2D&amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;3Dinstance segmentation分类问题离散量x --&amp;amp;amp;amp;amp;amp;amp;amp;amp;gt;y
复制链接

扫一扫