Fast R-CNN笔记

最新推荐文章于 2024-06-18 14:18:55 发布

hxyzxyz

最新推荐文章于 2024-06-18 14:18:55 发布

阅读量3.8k

点赞数 1

分类专栏：深度学习论文笔记文章标签： Fast RCNN rbg ICCV 2015 rcnn

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hjl240/article/details/51912415

版权

深度学习同时被 2 个专栏收录

6 篇文章 0 订阅

订阅专栏

5 篇文章 0 订阅

订阅专栏

作者：Ross Girshick

ICCV 2015

概要

FastRCNN是RCNN和SPPnet的改进版。Fast RCNN在训练的时候比RCNN快9倍，比SPPnet快3倍；测试的时候比RCNN快213倍，比SPPnet快10倍。最后在PASCAL VOC 2012上达到66%的mAP。

RCNN与SPPnet存在的缺点

1. 训练是多阶段的。先提proposal，然后CNN提取特征，之后用SVM分类器，最后再做bounding-box regression。

2. 训练非常耗费时间和空间（存储）。在训练SVM和bbox regression的时候，需要先将之前提取出来的特征写入磁盘中，这些特征需要花费的空间很大；这个过程也非常耗费时间。

3. 物体检测非常慢。测试的时候，特征需要从每个图片中的每个proposal提取，使用VGG16网络大概每张图片耗费47s（在一个GPU上）。

Fast RCNN的优点

1. 比RCNN，SPPnet有更高的准确率（mAP）。

2. 训练是单阶段的，使用多任务的loss。

3. 训练可以更新所有的网络层（SPPnet只能更新fc层）。

4. 特征缓存的时候不需要硬盘存储。

Fast RCNN结构与训练

第一步，将这个完整的图片经过若干卷积层与max pooling层，得到一个feature map。

第二步，用selective search算法从这完整的图片中提取出object proposals，即RoI。

第三步，根据映射关系，可以得到每个object proposal对应的feature map。

第四步，将第三步得到的feature map经过RoI pooling layer得到固定大小的feature map（变小了）。

第五步，经过2层全连接层（fc），得到固定大小的RoI特征向量。

第六步，特征向量经由各自的FC层，得到两个输出向量：第一个是分类，使用softmax，第二个是每一类的bounding box回归。

简要流程图如下：

说明：在训练的时候，分类与回归是一起训练的，总的loss是分类的loss加上回归的loss。计算公式如下：

在本文中λ取1，详细情况可以查看论文。

关于RoI pooling layer

这是SPP pooling层的一个简化版，只有一级“金字塔”，输入是N个特征映射和一组R个RoI，R>>N。N个特征映射来自于最后一个卷积层，每个特征映射都是Hx W x C的大小。每个RoI是一个元组(n, r, c, h, w)，n是特征映射的索引，n∈{0, ... ,N-1}，(r, c)是RoI左上角的坐标，(h, w)是高与宽。输出是max-pool过的特征映射，H' * W' * C的大小，H'≤H，W'≤W。对于RoI，bin-size = h/H' * w/W'，这样就有H'*W'个输出bin，bin的大小是自适应的，取决于RoI的大小。

下图中，H'=W'=3

参考文章:

读DL论文心得之Fast RCNN

论文笔记《Fast R-CNN》

【目标检测】Fast RCNN算法详解

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Fast R-CNN笔记

作者：Ross GirshickICCV 2015 FastRCNN是RCNN和SPPnet的改进版。Fast RCNN在训练的时候比RCNN快9倍，比SPPnet快3倍；测试的时候比RCNN快213倍，比SPPnet快10倍。最后在PASCAL VOC 2012上达到66%的mAP。RCNN与SPPnet存在的缺点1. 训练是多阶段的。先提pr
复制链接

扫一扫

专栏目录

hxyzxyz CSDN认证博客专家 CSDN认证企业博客

码龄12年

43: 原创

17万+: 周排名

217万+: 总排名

51万+: 访问

: 等级

3743: 积分

142: 粉丝

208: 获赞

193: 评论

692: 收藏

私信

关注

热门文章

分类专栏

opencv 4篇
MFC
单片机 6篇
视频编解码 2篇
C/C++ 1篇
SDL 3篇
live555 1篇
数学 2篇
Ruby
TensorFlow 3篇
电路相关
机器学习 2篇
深度学习 6篇
论文笔记 5篇
追踪 7篇
环境配置 3篇
维基百科转载 4篇
matlab 1篇
视频稳像 1篇
树莓派 1篇
人脸
人脸识别/检测 2篇
sql 2篇

最新评论

在cadence中添加pspice（How to add p-spice lib in cadence）
XxQ要毕业: 楼主请问，这里使用模型的pin角如何对应前仿中的pin角呢
在cadence中添加pspice（How to add p-spice lib in cadence）
tiny peach�: 请问解决了吗，我也遇到这个问题了
在cadence中添加pspice（How to add p-spice lib in cadence）
皮卡丘要好好学习呀: 怎么调整长宽比啊
利用ffmpeg将RTSP传输的h264原始码流保存到文件中
liky0400840102: pCodecCtx=pFormatCtx->streams[videoindex]->codec; pCodec=avcodec_find_decoder(pCodecCtx->codec_id); if(pCodec==NULL) { printf("Codec not found.\n"); return -1; } if(avcodec_open2(pCodecCtx, pCodec,NULL)<0) { printf("Could not open codec.\n"); return -1; } pFrame=av_frame_alloc(); pFrameYUV=av_frame_alloc(); out_buffer=(uint8_t *)av_malloc(avpicture_get_size(PIX_FMT_YUV420P, pCodecCtx->width, pCodecCtx->height)); avpicture_fill((AVPicture *)pFrameYUV, out_buffer, PIX_FMT_YUV420P, pCodecCtx->width, pCodecCtx->height); //Output Info---输出一些文件（RTSP）信息 printf("---------------- File Information ---------------\n"); av_dump_format(pFormatCtx,0,filepath,0); printf("-------------------------------------------------\n"); img_convert_ctx = sws_getContext(pCodecCtx->width, pCodecCtx->height, pCodecCtx->pix_fmt, pCodecCtx->width, pCodecCtx->height, PIX_FMT_YUV420P, SWS_BICUBIC, NULL, NULL, NULL); ———————————————— 这部分是解码才需要的吧？只是保存，貌似没用。
matlab下将图片序列转化为视频文件
llbp82: m文件所在得当前路径下自动生成

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。