总结 | 那些里程碑意义的深度学习目标检测论文

点上方蓝字计算机视觉联盟获取更多干货

在右上方 ··· 设为星标 ★,与你不见不散


  计算机视觉联盟笔记  

作者:王博Kings、Sophia

本文内容概述王博Kings、Sophia学习笔记

AI博士笔记系列推荐

周志华《机器学习》手推笔记正式开源!可打印版本附pdf下载链接

最近王博Kings在总结一些论文笔记,觉得有必要进行一个梳理了:

YOLOv1

论文下载:http://arxiv.org/abs/1506.02640

代码下载:https://github.com/pjreddie/darknet

核心思想:将整张图片作为网络的输入(类似于Faster-RCNN),直接在输出层对BBox的位置和类别进行回归。

YOLOv2(YOLO9000)

论文地址:https://arxiv.org/abs/1612.08242

YOLOv2相对v1版本,在继续保持处理速度的基础上,从预测更准确(Better),速度更快(Faster),识别对象更多(Stronger)这三个方面进行了改进。其中识别更多对象也就是扩展到能够检测9000种不同对象,称之为YOLO9000。

YOLOv3

 

论文地址:https://pjreddie.com/media/files/papers/YOLOv3.pdf

YOLO v3的模型比之前的模型复杂了不少,可以通过改变模型结构的大小来权衡速度与精度。

YOLOv4

 

YOLOv4: Optimal Speed and Accuracy of Object Detection

论文:https://arxiv.org/abs/2004.10934

代码:https://github.com/AlexeyAB/darknet

YOLOv5:

YOLOv5源代码:

https://github.com/ultralytics/yolov5

王博Kings也注意到Transformer在CV领域展现了强大的力量,如果不知道什么是Transformer,建议看下面这篇文章学习

笔记 | 深入理解Transformer

Transformer

 

  • DETR(End-to-End Object Detection with Transformers),使用Transformers进行目标检测和分割。

  • Vision Transformer (AN IMAGE IS WORTH 16X16 WORDS: Transformer FOR IMAGE RECOGNITION AT SCALE),使用Transformer 进行图像分类。

  • Image GPT(Generative Pretraining from Pixels),使用Transformer进行像素级图像补全

  • End-to-end Lane Shape Prediction with Transformers,在使用Transformer进行车道标记检测

2017: Mask R-CNN

Mask R-CNN并不是一个典型的目标检测网络。

它被设计来解决实例分割任务,即为场景中的每个对象创建一个掩码。

然而,Mask R-CNN 展示了对 Faster R-CNN 框架的一个很好的扩展,反过来也激发了目标检测的研究。

其主要思想是在已有的边界框和分类分支的基础上,在 ROI pooling之后增加一个二进制Mask预测分支。此外,为了解决原始的 ROI Pooling 层的图像量化误差问题,Mask R-CNN 还提出了一个新的 ROI Align 层,该层实际上使用了双线性图像重采样。如你所料,多任务训练(分割 + 检测)和新的 ROI Align 层都有助于改进边界框benchmark。

2015: SSD

YOLO v1显示了one-Stage检测的潜力,但和Two-stage检测的性能差距仍然很明显。在 YOLO v1中,可以将多个目标分配给同一个网格单元。这对于探测微小物体来说是一个巨大的挑战,也成为提高单阶段检测器性能到与两阶段检测器相当的关键问题。

2015: Faster R-CNN

改进版本的 R-CNN,称为 Fast R-CNN,对建议的区域使用共享的特征提取器。仅仅几个月后,Ross和他的团队又带着另一个改进回来了。这个新的网络Faster R-CNN 不仅比以前的版本更快,而且标志着目标检测深度学习方法的一个里程碑。

2015: Fast R-CNN

 

R-CNN 的一个快速后续是减少对多个 region proposals 的重复卷积。

由于这些 region proposals 都来自一个图像,自然而然地想到,可以通过对整个图像运行一次 CNN,并在许多 region proposals 之间共享计算,来改进 R-CNN。然而,不同的 region proposals 有不同的大小,如果我们使用相同的 CNN 特征提取器,会导致不同的输出特征图大小。 这些具有不同大小的特征图将阻止我们使用全连接层进行进一步的分类和回归,因为全连接层的输入只能是固定大小。
参考文献:
  1. Pierre Sermanet, David Eigen, Xiang Zhang, Michael Mathieu, Rob Fergus, Yann LeCun, OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks

  2. Ross Girshick, Jeff Donahue, Trevor Darrell, Jitendra Malik, Region-based Convolutional Networks for Accurate Object Detection and Segmentation

  3. Ross Girshick, Fast R-CNN

  4. Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi, You Only Look Once: Unified, Real-Time Object Detection

  5. Shaoqing Ren, Kaiming He, Ross Girshick, Jian Sun, Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

  6. Tsung-Yi Lin, Piotr Dollár, Ross Girshick, Kaiming He, Bharath Hariharan, Serge Belongie, Feature Pyramid Networks for Object Detection

  7. Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, Piotr Dollár, Focal Loss for Dense Object Detection

  8. Joseph Redmon, Ali Farhadi, YOLO9000: Better, Faster, Stronger

  9. Joseph Redmon, Ali Farhadi, YOLOv3: An Incremental Improvement

  10. Yanjia Li, Dive Really Deep into YOLO v3: A Beginner’s Guide

  11. Xingyi Zhou, Dequan Wang, Philipp Krähenbühl, Objects as Points

  12. Kaiming He, Georgia Gkioxari, Piotr Dollár, Ross Girshick, Mask R-CNN

  13. Zhaowei Cai, Nuno Vasconcelos, Cascade R-CNN: Delving into High Quality Object Detection

  14. Mingxing Tan, Ruoming Pang, Quoc V. Le, EfficientDet: Scalable and Efficient Object Detection

  15. Jifeng Dai, Yi Li, Kaiming He, Jian Sun, R-FCN: Object Detection via Region-based Fully Convolutional Networks

  16. Yanjia Li, Witnessing the Progression in Semantic Segmentation: DeepLab Series from V1 to V3+

  17. Golnaz Ghiasi, Tsung-Yi Lin, Ruoming Pang, Quoc V. Le, NAS-FPN: Learning Scalable Feature Pyramid Architecture for Object Detection

  18. Shu Liu, Lu Qi, Haifang Qin, Jianping Shi, Jiaya Jia, Path Aggregation Network for Instance Segmentation

end

我是王博Kings,一名985AI博士,在Github上开源了机器学习、深度学习等一系列手推笔记,获得了不少同学的支持。

这是我的私人微信,还有少量坑位,可与相关学者研究人员交流学习 

目前开设有人工智能、机器学习、计算机视觉、自动驾驶(含SLAM)、Python、求职面经、综合交流群扫描添加CV联盟微信拉你进群,备注:CV联盟

王博Kings 的公众号,欢迎关注,干货多多

王博Kings的系列手推笔记(附高清PDF下载):

博士笔记 | 周志华《机器学习》手推笔记第一章思维导图

博士笔记 | 周志华《机器学习》手推笔记第二章“模型评估与选择”

博士笔记 | 周志华《机器学习》手推笔记第三章“线性模型”

博士笔记 | 周志华《机器学习》手推笔记第四章“决策树”

博士笔记 | 周志华《机器学习》手推笔记第五章“神经网络”

博士笔记 | 周志华《机器学习》手推笔记第六章支持向量机(上)

博士笔记 | 周志华《机器学习》手推笔记第六章支持向量机(下)

博士笔记 | 周志华《机器学习》手推笔记第七章贝叶斯分类(上)

博士笔记 | 周志华《机器学习》手推笔记第七章贝叶斯分类(下)

博士笔记 | 周志华《机器学习》手推笔记第八章集成学习(上)

博士笔记 | 周志华《机器学习》手推笔记第八章集成学习(下)

博士笔记 | 周志华《机器学习》手推笔记第九章聚类

博士笔记 | 周志华《机器学习》手推笔记第十章降维与度量学习

博士笔记 | 周志华《机器学习》手推笔记第十一章特征选择与稀疏学习

博士笔记 | 周志华《机器学习》手推笔记第十二章计算学习理论(上)

博士笔记 | 周志华《机器学习》手推笔记第十二章计算学习理论(下)

博士笔记 | 周志华《机器学习》手推笔记第十三章半监督学习

博士笔记 | 周志华《机器学习》手推笔记第十四章概率图模型

点个在看支持一下吧

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值