总结 | 那些里程碑意义的深度学习目标检测论文

最新推荐文章于 2024-03-01 18:24:11 发布

SophiaCV

最新推荐文章于 2024-03-01 18:24:11 发布

阅读量303

点赞数

文章标签：网络计算机视觉机器学习人工智能深度学习

在公众号【计算机视觉联盟】后台回复【9076】获取独家200页AI笔记！

本文链接：https://blog.csdn.net/Sophia_11/article/details/113409781

版权

点上方蓝字计算机视觉联盟获取更多干货

在右上方 ··· 设为星标 ★，与你不见不散

计算机视觉联盟笔记

作者：王博Kings、Sophia

本文内容概述王博Kings、Sophia学习笔记

AI博士笔记系列推荐

周志华《机器学习》手推笔记正式开源！可打印版本附pdf下载链接

最近王博Kings在总结一些论文笔记，觉得有必要进行一个梳理了：

YOLOv1

论文下载：http://arxiv.org/abs/1506.02640

代码下载：https://github.com/pjreddie/darknet

核心思想：将整张图片作为网络的输入（类似于Faster-RCNN），直接在输出层对BBox的位置和类别进行回归。

YOLOv2（YOLO9000）

论文地址：https://arxiv.org/abs/1612.08242

YOLOv2相对v1版本，在继续保持处理速度的基础上，从预测更准确（Better），速度更快（Faster），识别对象更多（Stronger）这三个方面进行了改进。其中识别更多对象也就是扩展到能够检测9000种不同对象，称之为YOLO9000。

YOLOv3

论文地址：https://pjreddie.com/media/files/papers/YOLOv3.pdf

YOLO v3的模型比之前的模型复杂了不少，可以通过改变模型结构的大小来权衡速度与精度。

YOLOv4

YOLOv4: Optimal Speed and Accuracy of Object Detection

论文：https://arxiv.org/abs/2004.10934

代码：https://github.com/AlexeyAB/darknet

YOLOv5：

YOLOv5源代码：

https://github.com/ultralytics/yolov5

王博Kings也注意到Transformer在CV领域展现了强大的力量，如果不知道什么是Transformer，建议看下面这篇文章学习

笔记 | 深入理解Transformer

Transformer

DETR(End-to-End Object Detection with Transformers)，使用Transformers进行目标检测和分割。
Vision Transformer (AN IMAGE IS WORTH 16X16 WORDS: Transformer FOR IMAGE RECOGNITION AT SCALE)，使用Transformer 进行图像分类。
Image GPT(Generative Pretraining from Pixels)，使用Transformer进行像素级图像补全
End-to-end Lane Shape Prediction with Transformers，在使用Transformer进行车道标记检测

2017: Mask R-CNN

Mask R-CNN并不是一个典型的目标检测网络。

它被设计来解决实例分割任务，即为场景中的每个对象创建一个掩码。

然而，Mask R-CNN 展示了对 Faster R-CNN 框架的一个很好的扩展，反过来也激发了目标检测的研究。

其主要思想是在已有的边界框和分类分支的基础上，在 ROI pooling之后增加一个二进制Mask预测分支。此外，为了解决原始的 ROI Pooling 层的图像量化误差问题，Mask R-CNN 还提出了一个新的 ROI Align 层，该层实际上使用了双线性图像重采样。如你所料，多任务训练(分割 + 检测)和新的 ROI Align 层都有助于改进边界框benchmark。

2015: SSD

YOLO v1显示了one-Stage检测的潜力，但和Two-stage检测的性能差距仍然很明显。在 YOLO v1中，可以将多个目标分配给同一个网格单元。这对于探测微小物体来说是一个巨大的挑战，也成为提高单阶段检测器性能到与两阶段检测器相当的关键问题。

2015: Faster R-CNN

改进版本的 R-CNN，称为 Fast R-CNN，对建议的区域使用共享的特征提取器。仅仅几个月后，Ross和他的团队又带着另一个改进回来了。这个新的网络Faster R-CNN 不仅比以前的版本更快，而且标志着目标检测深度学习方法的一个里程碑。

2015: Fast R-CNN

R-CNN 的一个快速后续是减少对多个 region proposals 的重复卷积。

由于这些 region proposals 都来自一个图像，自然而然地想到，可以通过对整个图像运行一次 CNN，并在许多 region proposals 之间共享计算，来改进 R-CNN。然而，不同的 region proposals 有不同的大小，如果我们使用相同的 CNN 特征提取器，会导致不同的输出特征图大小。这些具有不同大小的特征图将阻止我们使用全连接层进行进一步的分类和回归，因为全连接层的输入只能是固定大小。
参考文献：

Pierre Sermanet, David Eigen, Xiang Zhang, Michael Mathieu, Rob Fergus, Yann LeCun, OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks
Ross Girshick, Jeff Donahue, Trevor Darrell, Jitendra Malik, Region-based Convolutional Networks for Accurate Object Detection and Segmentation
Ross Girshick, Fast R-CNN
Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi, You Only Look Once: Unified, Real-Time Object Detection
Shaoqing Ren, Kaiming He, Ross Girshick, Jian Sun, Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks
Tsung-Yi Lin, Piotr Dollár, Ross Girshick, Kaiming He, Bharath Hariharan, Serge Belongie, Feature Pyramid Networks for Object Detection
Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, Piotr Dollár, Focal Loss for Dense Object Detection
Joseph Redmon, Ali Farhadi, YOLO9000: Better, Faster, Stronger
Joseph Redmon, Ali Farhadi, YOLOv3: An Incremental Improvement
Yanjia Li, Dive Really Deep into YOLO v3: A Beginner’s Guide
Xingyi Zhou, Dequan Wang, Philipp Krähenbühl, Objects as Points
Kaiming He, Georgia Gkioxari, Piotr Dollár, Ross Girshick, Mask R-CNN
Zhaowei Cai, Nuno Vasconcelos, Cascade R-CNN: Delving into High Quality Object Detection
Mingxing Tan, Ruoming Pang, Quoc V. Le, EfficientDet: Scalable and Efficient Object Detection
Jifeng Dai, Yi Li, Kaiming He, Jian Sun, R-FCN: Object Detection via Region-based Fully Convolutional Networks
Yanjia Li, Witnessing the Progression in Semantic Segmentation: DeepLab Series from V1 to V3+
Golnaz Ghiasi, Tsung-Yi Lin, Ruoming Pang, Quoc V. Le, NAS-FPN: Learning Scalable Feature Pyramid Architecture for Object Detection
Shu Liu, Lu Qi, Haifang Qin, Jianping Shi, Jiaya Jia, Path Aggregation Network for Instance Segmentation