YOLO_原理详述

YOLO(You Only Look Once)是一种基于深度学习的目标检测算法,它将物体检测视为回归问题,通过单一的end-to-end网络完成。YOLO避免了region proposal的过程,直接在训练和检测中使用同一网络。网络结构包括24个卷积层和2个全连接层,每个格子负责检测落入的物体并输出bounding box信息和类别概率。YOLO的损失函数结合了坐标、IOU和分类误差。尽管YOLO速度快,但存在定位精度和召回率低的问题,这些问题在YOLO9000中得到了改进。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

问题背景:“end-to-end方法的典型代表就是有名的yolo。前面的方法中,CNN本质的作用还是用来分类,定位的功能其并没有做到。而yolo这种方法就是只通过CNN网络,就能够实现目标的定位和识别。”
这是在知乎上看到的一句话。我突然像看看YOLO的厉害之处在哪?所以写这篇博文。

本文参考链接:
https://zhuanlan.zhihu.com/p/25236464

文中标蓝部分为暂未弄清楚的部分,留坑。也欢迎各位dalao指教。


一、创新

YOLO将物体检测作为回归问题求解。基于一个单独的end-to-end网络,完成从原始图像的输入到物体位置和类别的输出。从网络设计上,YOLO与rcnn、fast rcnn及faster rcnn的区别如下:

[1] YOLO训练和检测均是在一个单独网络中进行。YOLO没有显示地求取region proposal的过程。而rcnn/fast rcnn 采用分离的模块(独立于网络之外的selective search方法)求取候选框(可能会包含物体的矩形区域),训练过程因此也是分成多个模块进行。Faster rcnn使用RPN(region proposal network)卷积网络替代rcnn/fast rcnn的selective
search模块,将RPN集成到fast rcnn检测网络中,得到一个统一的检测网络。尽管RPN与fast rcnn共享卷积层,但是在模型训练过程中,需要反复训练RPN网络和fast rcnn网络(注意这两个网络核心卷积层是参数共享的)。

[2]YOLO将物体检测作为一个回归问题进行求解,输入图像经过一次inference(推理),便能得到图像中所有物体的位置和其所属类别及相应的置信概率。而rcnn/fast rcnn/faster rcnn将检测结果分为两部分求解:物体类别(分类问题),物体位置即bounding box(回归问题)。

这里写图片描述

二、网络结构

这里写图片描述
YOLO检测网络包括24个卷积层和

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值