介绍
当前主流的CNN目标检测框架可分为两类:包含Region proposals提取阶段的两阶段目标检测框架如R-CNN系列像R-CNN/Fast-RCNN/Faster-FCNN/R-FCN等;端到端的单阶段目标检测框架如Yolo系列像Yolo-v1/Yolo-v2/Yolo-v3及SSD,和最近Facebook提出的RetinaNet等。简单说来两阶段的检测框架相对准确率(mAP值)更高,但其速度较慢,很难满足图片或视频实时性处理要求;单阶段的检测框架相对准确率较低,但却能在保证一定准确率的情况下,拥有更快、甚至实时的推理速度,因此在现实工程实践中也获得了较多的应用。
Yolo系列模型是比较典型的端到端的单阶段目标检测模型。凭着较快的速度及轻便的特性已经在端侧目标检测领域中得到了较大规模的应用。本系列文章里面我们将从最早的Yolo-v1开始,逐步分析下此系列模型是如何逐渐迭代发展的。
Yolo概述
如前文所讲,Yolo是一种端到端的目标检测网络。它以resize过后的图片为输入,经过前端的CNN特征提取网络后,在生成的feature maps之上再使用CNN/Average Pool等层对特征进一步融合、整理,然后由后接的两个fc层来直接生成图片上每个位置节点所涵盖的潜在目标的类别、位置及置信度等信息。最后再对这些潜在的目标以其置信度信息来进行过滤(即传说中的极大值抵制,non-maximum suppression,NMS),以减少重复、冗余的目标框数目进而加速并改良后须的loss值计算。总之它是一个由图片输入到图片之上目标输出的端到端回归模型。下图是Yolo目标检测框架的概括描述。
Yolo检测系统框架
Yolo详解模型流水过程
Yolo会