YOLOV1论文详解

YOLO(you only look once,能耐的宣言🙃)对象检测开创性方法之一

动机:

处理复杂图像信息,人的视觉系统足够快准,例如驾驶,但如今系统采取

1。重复用分类器的方式,DPM,detect目标的不同位置,可缩放,滑行

2。R-CNN:①generate potential bounding boxes② classification③后处理修正边框,消重复,依据其它目标重新定位(Pipe|ine得分开训练,难优化,)不够“优雅”,Y0L0应运而生

特点:

1快:single stage

一一实时系统应用,如自动驾驶,机器人系统响应

2迁移性好:

简单易用,训练方便:

3准确性:图像整体特征把握较准确

不足:较小目标对象难精准定位

原理:

视之为单回归问题,输入X,找F(X)使之输出一连续的结果,这里是boundbox的坐标

灵感来源:人类视觉系统够快、准,且能同时定位与识别对象

Input:

5 basic parameters

①分格:SXS分割

②进行预测,参数确定:1(x,y)指图片中心相对于整张图的坐标(≈绝对位置)此图中心所在的grid cell 近O坐标(a,b),则偏移值.为(x*S/w-a,y*S/h-b),使之∈(0,I)

   同时怎IOU:共同处(预测的与实际之交集/并集,表征预测准确性),定义confidence?:块分得准不准

串连多个参数的公式方法:Pr(class | object) * Pr(object) * IOU (pred, truth) = Pr(class) * IOU,用条件概率从物体最终指向class

多格对一的特殊情况取最大的iou格

怎LOSF应IOU处理:non-maximum value抑制:将上面结果取最大的

end 1 grid Be responsibie for a boundbox,cause poor detection effect on small objects and dense objects:

ay对应不准,可更细的grid,或1g应多个boundbox,再取每个box结果均值

output:Tensor

网络搭建实现:

参考GoogleNet,特点为设计灵活的网络结构分层次处理大量输入数据以及层层降低参数防止过拟合

 c26d899ee59a42968564d8c0cfb4681e.jpg

 

3be3cf90370440be83de9ce8dd3deec6.jpg

ad33af67a429471f807862a355a1428a.jpg 

95e7fc45f995446f8fabc8516df95a66.jpg 

0583bd18839e4e0393cee1b4e94af46b.jpg 

 未用Inception这稀疏结构,代以1x1卷积层(此处1x1卷积层的存在是为了跨通道信息整合⊕)+3x3卷积层

ed5fd5590fb449d6ac9bcd4444512e0e.jpg

 

公式:1^Obj ij(C-C^)^2 预测Objbox,Confidence,及非测物体box的~都要考虑

(p-p^)^2,分类误差

为下采样屏?:压缩图,[x,y,z,w],对矩阵:,特征粒度↑:

LOSS计算:

公式解析⊕234a4a2b0f97475db69262f91a494628.jpg

 注:IOU大的计算①,有物体的得④

进一步思考:

Y0L0方法敏捷性好,但如果需要对图像信息进行有逻辑层次的深度加工学习似乎不当,能否先由整体到局部刬分图片信息并优先学习整体特征,再在学习的过程中依据需要不断填充细节特征,完成对目标不同层次的理解

对自主搭建网络的启发:

1数据:1抓住重点,适当放弃(关联较小数据项),省资提效(另见CNN卷积核的局部处理特性)

2结构上:将CNN视为提升训练效果的原子构件

3整体:1借鉴人的视觉活动优势,从功能应用整体入手构建理想模型,再思考作为“部分“的结构职能(自上而下)

2不仅考量训练效果(质量)还要考量训练的时间成本与资源消耗(效率,“性价比”),以及性能提升,迁移应用的便利性(灵活)

 

 

 

 

 

 

 

 

 

  • 32
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
YOLOv8是一种基于深度学习的目标检测算法,是YOLO(You Only Look Once)系列的最新版本。它在YOLOv4的基础上进行了改进和优化,提供了更好的检测性能和速度。 YOLOv8的源码详解可以从以下几个方面进行说明: 1. 网络结构:YOLOv8使用了Darknet-53作为主干网络,由53个卷积层组成,用于提取图像特征。在主干网络后面连接了多个特征金字塔层(FPN),用于多尺度目标检测。 2. 检测头:YOLOv8使用了三个检测头,分别对应不同尺度的目标检测。每个检测头都由一个卷积层和一个全连接层组成,用于预测边界框的位置和类别。 3. 损失函数:YOLOv8使用了YOLO系列常用的损失函数——多尺度损失函数,包括定位损失、置信度损失和分类损失。通过最小化这些损失函数,可以使得模型在目标检测中表现更好。 4. 数据预处理:在源码中,会对输入图像进行一系列的预处理操作,包括图像缩放、填充、归一化等。这些操作可以使得输入图像符合模型的输入要求,并提高检测的准确性。 5. 推理过程:在源码中,会对输入图像进行前向传播,得到目标检测的结果。这一过程中,会经过网络的多个层级,使用卷积和池化等操作提取图像特征,并通过检测头预测边界框的位置和类别。 需要注意的是,YOLOv8的源码可能会有不同的实现版本,具体的细节和实现方式可能有所差异。如果你想详细了解YOLOv8的源码,建议查阅相关的论文和开源代码,以便更好地理解算法的实现原理和细节。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值