R-CNN系列

最新推荐文章于 2022-06-11 21:08:29 发布

LV little white

最新推荐文章于 2022-06-11 21:08:29 发布

阅读量198

点赞数

文章标签：计算机视觉

本文链接：https://blog.csdn.net/qq_35446336/article/details/104852006

版权

R-CNN

在这里插入图片描述

输入图片，selective search方法选取约2k框，然后缩放（227*227，在框旁增加原图像素宽度16），输入CNN进行特征提取，对CNN输出的特征用SVM进行打分(每类都有一个SVM，21类就有21个SVM分类器)，对打好分的区域使用NMS即非极大抑制(每类都单独使用)。然后再训练线性回归到更真实的框。

Fast R-CNN

在这里插入图片描述

输入图片，一路FCN获得特征图，一路selective search获得框，提取的每个region proposal 都有一个对应的Ground-truth Bounding Box和Ground-truth class label。其中每个region proposals用四元数组进行定义，即(r, c, h, w)，即窗口的左上行列坐标与高和宽。值得注意的是，这里的坐标均是对应原图像的，而不是输出的feature maps。因此，还需要把原图像的坐标系映射到feature maps上。这一点也很简单，比如采用的是pre-trained 网络模型为VGG16的话，RoIPooling替换掉最后一个max pooling层的话，则原图像要经过4个max pooling层，输出的feature maps是原图像的1/16，因此，将原图像对应的四元数组转换到feature maps上就是每个值都除以16，并量化到最接近的整数。
那么将region proposal的四元组坐标映射到feature maps上之后接下干什么呢？接下来就是把region proposal窗口框起来的那部分feature maps输入到RoIPooling（R-CNN是将其缩放到224x224，然后送入经过Fine-tuning的网络模型），得到固定大小的输出maps。
ROI pooling:将框起来的特征均匀分为几块，然后最大池化一下
Fast R-CNN统一了类别输出任务和候选框回归任务，有两个损失函数：分类损失和回归损失。分类采用softmax代替SVM进行分类，共输出N(类别)+1(背景)类。softmax由于引入了类间竞争，所以分类效果优于SVM，SVM在R-CNN中用于二分类。回归损失输出的是4*N(类别)，4表示的是(x,y,w,h分别表示候选框的中心坐标和宽、高)。
SVD对全连接层进行分解：由于一张图像约产生2000个RoI，将近一半多的时间用在全连接层计算，为了提高运算速度，可以用SVD(奇异值分解)对全连接层进行变换来提高运算速度。一个大的矩阵可以近似分解为三个小矩阵的乘积，分解后的矩阵的元素数目远小于原始矩阵的元素数目，从而达到减少计算量的目的。通过对全连接层的权值矩阵进行SVD分解，使得处理一张图像的速度明显提升。

Faster R-CNN

在这里插入图片描述

输入图片提取特征256维
anchors可以理解为一些预设大小的框，anchors的种类用k表示，在原文中k=9，由3种面积(128,256,512)和3种长宽比(1:1,1:2,2:1)组成，这里anchors的大小选取是根据检测时的图像定义
经过3*3得到256维特征，第一路18维，每个点9个anchor是否为前景，第二路36维，代表anchor位置。根据GT变换anchor,然后softmax排序，NMS提取好的proposal

LV little white

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
R-CNN系列

R-CNN输入图片，selective search方法选取约2k框，然后缩放（227*227，在框旁增加原图像素宽度16），输入CNN进行特征提取，对CNN输出的特征用SVM进行打分(每类都有一个SVM，21类就有21个SVM分类器)，对打好分的区域使用NMS即非极大抑制(每类都单独使用)。然后再训练线性回归到更真实的框。Fast R-CNN输入图片，一路FCN获得特征图，一路sel...
复制链接

扫一扫