点上方蓝字计算机视觉联盟获取更多干货
在右上方 ··· 设为星标 ★,与你不见不散
计算机视觉联盟笔记
作者:王博Kings、Sophia
本文内容概述王博Kings、Sophia学习笔记
AI博士笔记系列推荐
周志华《机器学习》手推笔记正式开源!可打印版本附pdf下载链接
最近王博Kings在总结一些论文笔记,觉得有必要进行一个梳理了:
YOLOv1
论文下载:http://arxiv.org/abs/1506.02640
代码下载:https://github.com/pjreddie/darknet
核心思想:将整张图片作为网络的输入(类似于Faster-RCNN),直接在输出层对BBox的位置和类别进行回归。
YOLOv2(YOLO9000)
论文地址:https://arxiv.org/abs/1612.08242
YOLOv2相对v1版本,在继续保持处理速度的基础上,从预测更准确(Better),速度更快(Faster),识别对象更多(Stronger)这三个方面进行了改进。其中识别更多对象也就是扩展到能够检测9000种不同对象,称之为YOLO9000。
YOLOv3
论文地址:https://pjreddie.com/media/files/papers/YOLOv3.pdf
YOLO v3的模型比之前的模型复杂了不少,可以通过改变模型结构的大小来权衡速度与精度。
YOLOv4
YOLOv4: Optimal Speed and Accuracy of Object Detection
论文:https://arxiv.org/abs/2004.10934
代码:https://github.com/AlexeyAB/darknet
YOLOv5:
YOLOv5源代码:
https://github.com/ultralytics/yolov5
王博Kings也注意到Transformer在CV领域展现了强大的力量,如果不知道什么是Transformer,建议看下面这篇文章学习
Transformer
DETR(End-to-End Object Detection with Transformers),使用Transformers进行目标检测和分割。
Vision Transformer (AN IMAGE IS WORTH 16X16 WORDS: Transformer FOR IMAGE RECOGNITION AT SCALE),使用Transformer 进行图像分类。
Image GPT(Generative Pretraining from Pixels),使用Transformer进行像素级图像补全
End-to-end Lane Shape Prediction with Transformers,在使用Transformer进行车道标记检测
2017: Mask R-CNN
Mask R-CNN并不是一个典型的目标检测网络。
它被设计来解决实例分割任务,即为场景中的每个对象创建一个掩码。
然而,Mask R-CNN 展示了对 Faster R-CNN 框架的一个很好的扩展,反过来也激发了目标检测的研究。
其主要思想是在已有的边界框和分类分支的基础上,在 ROI pooling之后增加一个二进制Mask预测分支。此外,为了解决原始的 ROI Pooling 层的图像量化误差问题,Mask R-CNN 还提出了一个新的 ROI Align 层,该层实际上使用了双线性图像重采样。如你所料,多任务训练(分割 + 检测)和新的 ROI Align 层都有助于改进边界框benchmark。
2015: SSD
YOLO v1显示了one-Stage检测的潜力,但和Two-stage检测的性能差距仍然很明显。在 YOLO v1中,可以将多个目标分配给同一个网格单元。这对于探测微小物体来说是一个巨大的挑战,也成为提高单阶段检测器性能到与两阶段检测器相当的关键问题。
2015: Faster R-CNN
改进版本的 R-CNN,称为 Fast R-CNN,对建议的区域使用共享的特征提取器。仅仅几个月后,Ross和他的团队又带着另一个改进回来了。这个新的网络Faster R-CNN 不仅比以前的版本更快,而且标志着目标检测深度学习方法的一个里程碑。
2015: Fast R-CNN
R-CNN 的一个快速后续是减少对多个 region proposals 的重复卷积。
参考文献:
Pierre Sermanet, David Eigen, Xiang Zhang, Michael Mathieu, Rob Fergus, Yann LeCun, OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks
Ross Girshick, Jeff Donahue, Trevor Darrell, Jitendra Malik, Region-based Convolutional Networks for Accurate Object Detection and Segmentation
Ross Girshick, Fast R-CNN
Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi, You Only Look Once: Unified, Real-Time Object Detection
Shaoqing Ren, Kaiming He, Ross Girshick, Jian Sun, Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks
Tsung-Yi Lin, Piotr Dollár, Ross Girshick, Kaiming He, Bharath Hariharan, Serge Belongie, Feature Pyramid Networks for Object Detection
Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, Piotr Dollár, Focal Loss for Dense Object Detection
Joseph Redmon, Ali Farhadi, YOLO9000: Better, Faster, Stronger
Joseph Redmon, Ali Farhadi, YOLOv3: An Incremental Improvement
Yanjia Li, Dive Really Deep into YOLO v3: A Beginner’s Guide
Xingyi Zhou, Dequan Wang, Philipp Krähenbühl, Objects as Points
Kaiming He, Georgia Gkioxari, Piotr Dollár, Ross Girshick, Mask R-CNN
Zhaowei Cai, Nuno Vasconcelos, Cascade R-CNN: Delving into High Quality Object Detection
Mingxing Tan, Ruoming Pang, Quoc V. Le, EfficientDet: Scalable and Efficient Object Detection
Jifeng Dai, Yi Li, Kaiming He, Jian Sun, R-FCN: Object Detection via Region-based Fully Convolutional Networks
Yanjia Li, Witnessing the Progression in Semantic Segmentation: DeepLab Series from V1 to V3+
Golnaz Ghiasi, Tsung-Yi Lin, Ruoming Pang, Quoc V. Le, NAS-FPN: Learning Scalable Feature Pyramid Architecture for Object Detection
Shu Liu, Lu Qi, Haifang Qin, Jianping Shi, Jiaya Jia, Path Aggregation Network for Instance Segmentation
end
我是王博Kings,一名985AI博士,在Github上开源了机器学习、深度学习等一系列手推笔记,获得了不少同学的支持。
这是我的私人微信,还有少量坑位,可与相关学者研究人员交流学习
目前开设有人工智能、机器学习、计算机视觉、自动驾驶(含SLAM)、Python、求职面经、综合交流群扫描添加CV联盟微信拉你进群,备注:CV联盟
王博Kings 的公众号,欢迎关注,干货多多
王博Kings的系列手推笔记(附高清PDF下载):
博士笔记 | 周志华《机器学习》手推笔记第二章“模型评估与选择”
博士笔记 | 周志华《机器学习》手推笔记第六章支持向量机(上)
博士笔记 | 周志华《机器学习》手推笔记第六章支持向量机(下)
博士笔记 | 周志华《机器学习》手推笔记第七章贝叶斯分类(上)
博士笔记 | 周志华《机器学习》手推笔记第七章贝叶斯分类(下)
博士笔记 | 周志华《机器学习》手推笔记第八章集成学习(上)
博士笔记 | 周志华《机器学习》手推笔记第八章集成学习(下)
博士笔记 | 周志华《机器学习》手推笔记第十章降维与度量学习
博士笔记 | 周志华《机器学习》手推笔记第十一章特征选择与稀疏学习
博士笔记 | 周志华《机器学习》手推笔记第十二章计算学习理论(上)
博士笔记 | 周志华《机器学习》手推笔记第十二章计算学习理论(下)
点个在看支持一下吧