关于深度学习在目标检测上的一些发展历史

个人笔记,均是个人的一点浅薄的见解,可能存在很多不足之处,欢迎指正。
持续修改中......

R-CNN,SPPNet,Fast RCNN,Faster RCNN,YOLO,SSD,R-FCN
R-CNN:(基于区域的卷积神经网络)
(1)region proposal(通过SS(selective search,选择性搜索))选择2k左右的图像区域。
(2)使用训练好的CNN(AlexNet,VGG)作为特征提取
(3)把所有的proposlas resize(227*227)后输入CNN模型输出对应的特征图(用的CNN包含全连接层,需要考虑输入图像的尺寸,纯卷积运算则不需要考虑)
(4)使用SVMs作为分类器,并使用NMS(非极大值抑制算法)去除多余框,只留下分数最高且相互重叠部分较小的一些框。
缺点:
(1)需要进行resize,会改变图像块的原本信息
(2)所有的proposals都要输入CNN,即CNN要运行2k+次,这其中包含了大量的重复计算,十分耗时。
SPPNet:
在R-CNN基础上做了改进,只进行依次前向的卷积运算,得到对应的特征图,然后根据ss在原图上找出的proposals,在特征图上找到对应的位置,进行SPP(空间金字塔池化,Spatial Pyramid Pooling,一般包含3个尺度,4*4,2*2,1*1,这里表示将特征图进行分块池化,具体池化的参数需要根据输入特征图进行调整),这样对于任意的输入,都可以得到相同维度的特征向量,作为FC的输入。
Fast-RCNN
在SPPNet的基础上,SPP使用了3个尺度,而Fast-RCNN中的ROI-Pooling可以看作其中的一层(7*7)。
Faster-RCNN
在Fast-RCNN的基础上,使用RPN(Region Proposal Network)自动提取区域。
YOLO:
使用24层卷积层加2个全连接层,直接输出物体的类别信息与边框位置信息。把回归与分类直接相结合。大大提高了效率。
SSD:
由于在经过多层的前向卷积运算之后,输出的特征图将变得比较小,则特征图上的一个像素点便对应着原图中较大的区域,这样的结构就很难检测较小物体。因此SSD就将中间过程输出的特征图也用来做回归和分类,可以看成一个多尺度检测的过程,保证了空间尺度上的完备性,可以有效检测出较小的物体。
R-FCN:
全卷积结构的卷积神经网络,使用1*1*n的卷积核代替全连接层,有效减少参数。

未完,更新中。。。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值