YOLOv1_搜索出来吧-CSDN博客

本文链接：https://blog.csdn.net/Yoyo211399/article/details/125940973

【精读AI论文】YOLO V1目标检测，看我就够了_哔哩哔哩_bilibiliYOLO算法是单阶段目标检测的经典算法，能实现快速、实时、高精度的图像识别和目标检测。几乎所有人工智能开发者都要使用YOLO为各行各业开发计算机视觉应用。从2016年到2021年，YOLO已更新换代5个版本，都是在YOLOV1最初版本基础上改进升级，弄懂YOLOV1非常重要。但网上的博客和教程都没能把关键问题讲清楚，甚至没有人认真读懂了原始论文。所以子豪兄决定亲手解决这个问题，用了一年多时间做出这, 视频播放量 170511、弹幕量 1999、点赞数 5114、投硬币枚数 5789、收藏人数 9670、转发人数 972, 视频作者同济子豪兄, 作者简介有温度的AI，就是爱，相关视频：【精读AI论文】YOLO V2目标检测算法，【亦】警惕AI外挂！我写了一个枪枪爆头的视觉AI，又亲手“杀死”了它，【YOLO实时目标检测】手把手教你白嫖！错过再等一年！【人工智能AI能智工人】，毕设系列-检测专题-基于YOLOV5的火灾检测系统，人工智能研究生现状，火遍全网的六个人工智能YOLO实战项目！附源码及技术教学（部分带论文）赶紧安排上！【人工智能AI|yolo实战】，从“卷积”、到“图像卷积操作”、再到“卷积神经网络”，“卷积”意义的3次改变，当下最好的AI毕设及论文选题项目！YOLO口罩检测项目实战。附赠项目源码、论文、技术教学！轻松上手，人工智能防疫项目，用途广【YOLO实时目标检测项目实战】，yolo v5 解读，训练，复现，【人工智能学习】逐句阅读100篇核心AI论文（双语字幕）https://www.bilibili.com/video/BV15w411Z7LG?p=3&vd_source=eba877d881f216d635d2dfec9dc10379

实例分割so难

只有目标检测和实例分割做到实例上的处理

目标检测两个流派：

单阶段模型：yolo 不提取候选框，直接把全图给的模型算法里直接输出结果；快准确率小目标鸟群人群密集目标不够好，但是现在都好起来了！！

两阶段模型：先从图像中提取若干候选框，在逐一甄别；比较准确但是慢

端到端完整的统一的框架

7*7*30的张量包含了所有预测框的坐标置信度类别结果。所以解析这个张量就可以获得目标检测的结果了

模型训练完了对未知图片进行预测测试 test

左图是划分gridcell 取7 就变成了 7*7个格格

中间上是每个gridcell 预测b个bounding box B=2 就每个小格格我们给他锚框bounding box两个，box具有xyhwc 坐标中心点坐标和框的宽高 C是置信度细线低

49*2=98个bounding box 就是图啦

每个boundingbox还能生产类别的概率假设包含物体的情况下是某个类别的概率是下面彩色图

C*P就是每个boundingbox对应类别的概率

结合boundingbox的信息和gridcell的类别信息就可以获得最后的预测结果

都是从7*7*30的张量获取的或者说s*s*（5*b+c）的张量中获取的

b： 2 c：20

解释张量：

30？包含两个预测框每个框有五个参数俩个有十个然后Pascavoc有二十个类别 10+20=30

30维的向量就是一个gridcell的信息

总共是7*7个gridcell 所以是7*7*30维的张量

第一个紫色的就是第一个boundingbox Cxyhw 后面二十维两十个类别的条件概率，假设包含物体情况下猫的概率鸟的概率。。。。 C*P才是真正的这个框是某个类别的概率

也可以看做yolo模型

输入是448*448*3的图像输出是1470个数字

都能预测出7*7*2个框有些置信度低就不管了高保留

每个gridcell还能生产20个类别的条件概率这个图展条件概率高的那些类别的所占有的框

紫色的都是bicycle 条件概率高的区域绿色就都是狗条件概率高的区域

每个gridcell只能有一个类别从二十个条件概率中选最高的那个所以每个gridcell只能预测一个物体

那我们这个7*7个gridcell最多最多也就能预测49个物体 ---------------------yolo小目标密集目标性能差的原因。

每个gridcell只有一个条件概率高的代表类别

吧这个grid中两个boundingbox赋予这个类别进行一系列后处理就有最后的结果

颜色代表不同的类别粗细C 形成中间结果共有98个boundingbox 每个都有C和最高P对应类别

然后做低的过滤非极大值抑制去重复的预测框获得最终目标检测结果

完整的预测过程就是以上！！！！！！！！！！！！！！！！！！！！！！

处理7*7*2=98个预测框低的过滤重复去掉保留一个

研究：最后那个7*7*30张量是如何变成最后目标检测的结果的？？？？

取出其中的一个gridcell来看~~ 包含应该是30个数字分别是5 5 20

5：第一个和第二个 boundingbox四个位置坐标和C置信度

20：该gridcell对应20个类别的条件概率分别都是多少这个是小猫的概率是？小狗的是？。。。

该bb包含物体的概率 * 包含物体的条件下各个类别的概率=====真正是哪个类别的概率

（全概率）

第二个也是得到20个类别的全概率

每个gridcell都能获得两个20维的全概率分别表示两个预测框

可视化就是之前那个乱图

假设狗是第一个类别横着看哈

设置阈值小于0.2的一律变成0
然后按照高低排序 0就是一堆在后面啦
在排序之后进行NMS非极大值抑制

NMS?????

假设有几个竖条狗的概率不是0 从高到低排序的

吧最高的拿出来之后把每个都跟最高的比较！！如下！！！

先看第一高的

iou 相似度！！！如果很小那绿框和橙框稍微有些重复就不要绿色啦永远再见啦

如果很大贼贼贼重合才不会要绿色啦

如果要加强nms可以吧阈值设置低一点

低强

蓝色的iou没有超过0.5 （就是看看和橙框重合有没有图片的一半就行啦）

都没有变成0哦

一直到最后一名和第一名橙色比对！！！！！！！！！！！

再看第二高的

吧所有比0.2低都都来比较

最后得到橙和蓝两个结果啦其他都是零

这只是对修勾这样

对其他的类别都要这般操作就获得了最终的结果下面是最后一行对人的 20个类别进行20次的nms

最后结果是系数矩阵有很多00

如果不为0的话安把他拎出来吧类别和分拎出来作为结果'

bb3 bb4有些类别不为零

吧类别索引找出来代表猫还是狗啊吧概率找出来可视化

可视化获得最终结果

训练阶段不需要！！！！！！！nms！！！！！！！！！！！！！！只有预测！！！！！！！！！

目标检测监督学习问题：人工会标注 groundtruth

就是绿框他的中心点落在哪个gridcell 就应该由他预测出的bb 负责拟合绿框两个bb中的一个拟合

gc输出类别应该也是gt的类别--------------------c*p=全概率狗的应该是最大的他就是gc的代表类别（每个gc只能预测一个类别）

如果没有gt的中心点落在的 gc 这个gc很可怜他弄出来的两个框都不要啦让他们的置信度越小越好为0最好！

回归问题：不是分类噢

1 带小帽子的是标注不带的都是预测值

2 wh也尽量一样加根号是使得小框对误差更敏感（同样的偏差小框造成的loss更大大框更小对大框更加公平）

大框误差肯定大一点，红的idol犯错批评的人多，不红的人犯错批评的人少

所以加个根号让大框公平一点点，更加强调小框的作用让大家也看看不红的人犯错也重要！！！

讲论文里

12同属于坐标回归误差确实都研究的是坐标一个是中心一个是宽高坐标

敏感在数据中是将就的意思小框不将就所以误差大加根号让他将就将就

机器学习中关于偏差、方差和误差的理解_青春是首不老歌丶的博客-CSDN博客_机器学习误差和偏差在模型预测中，模型可能出现的误差来自两个主要来源： 1、因模型无法表示基本数据的复杂度而造成的偏差（bias); 2、因模型对训练它所用的有限数据过度敏感而造成的方差（variance)。误差是测量值与真实值之间的差值。用误差衡量测量结果的准确度，用偏差衡量测试结果的精确度；误差是以真实值为标准，偏差是以多次测量结果的平均值为标准。而方差在统计学中是指各个数据与其平均数之差的平方的和的平均数，它表示的是一种偏离程度：当数据分布比较分散时，方差就较大；因此方差越大，数据的波动越大；方差越小https://blog.csdn.net/qq_42859149/article/details/118419995

3 标签值计算就是绿色字他预测出的置信度Ci应该是和iou越接近越好啦 iou就是相似度嘛和相似度接近就很好

4 打入冷宫的置信度最好都为0 所以标签值是0 一类是小框一类是不负责预测物体gridc ell的框

34都是研究C置信度置信度有大有小对吧

一个是负责大的 --------负责检测物体

一个是负责小的 --------不负责检测物体

5 对每个类别遍历求和吧标准的gt的类别越接近1越好

误差完事了都该研究类别了！！他到底是啥啊概率求和

如果一个bb负责检测物体那么他所属的gc一定也负责

如果一个bb负责另一个不负责

那个J 小J ：bb共有B个不是8个！！！！！！！！！！

密集会落下小绿框！！！！！！

目标检测评估性能指标

标签就是人工打的噢已知

那个公式只在训练阶段测试不用了哈

1 x 1 reduction layers 1.*1还原层 1x1卷积层

This means our network reasons globally about the full image and all the objects in the image

这意味着我们的网络对整个图像和图像中的所有对象进行全局推理。分析

This can lead to model instability, causing training to diverge early on.

这可能导致模型不稳定，导致训练在早期发散。

To remedy this,

为了解决这个问题，

Sum-squared error

平方和误差

Our error metric should reflect that

我们的误差指标应该反映

Throughout training we use a batch size of 64, a momentum of 0.9 and a decay of 0.0005.

在整个训练过程中，我们使用64个批量，动量为0.9，权重衰减为0.0005。

To avoid overfitting we use dropout and extensive data augmentation.

为了避免过度拟合，我们使用了退出和广泛的数据扩充。

For data augmentation we introduce random scaling and translations of up to 20% of the original image size.

对于数据增强，我们引入了高达原始图像大小20%的随机缩放和平移。

We also randomly adjust the exposure and saturation of the image by up to a factor of 1.5 in the HSV color space.

我们还可以在HSV颜色空间中随机调整图像的曝光和饱和度，最多调整1.5倍。

our loss function treats errors the same in small bounding boxes versus large bounding boxes.

我们的损失函数在小包围盒和大包围盒中处理相同的错误。

contextual reasoning

上下文分析

Real-Time Detection In The Wild

野外实时检测

Abstract

We present YOLO, a new approach to object detection.

Prior work on object detection repurposes classifiers to perform detection. Instead, we frame object detection as a regression problem to spatially separated bounding boxes and associated class probabilities. A single neural network predicts bounding boxes and class probabilities directly from full images in one evaluation. Since the whole detection pipeline is a single network, it can be optimized end-to-end directly on detection performance.

Our unified architecture is extremely fast. Our base YOLO model processes images in real-time at 45 frames per second. A smaller version of the network, Fast YOLO, processes an astounding 155 frames per second while still achieving double the mAP of other real-time detectors. Compared to state-of-the-art detection systems, YOLO makes more localization errors but is less likely to predict false positives on background. Finally, YOLO learns very general representations of objects. It outperforms other detection methods, including DPM and R-CNN, when generalizing from natural images to other domains like artwork.

摘要

我们提出了YOLO，一种新的目标检测方法。

之前的目标检测工作重新调整了分类器的用途，以执行检测。相反，我们将对象检测作为一个回归问题，回归到空间分离的边界框和相关的类概率。单个神经网络在一次评估中直接从完整图像预测边界框和类概率。由于整个检测管道是单个网络，因此可以直接对检测性能进行端到端优化。

我们的统一架构速度非常快。我们的基本YOLO模型以每秒45帧的速度实时处理图像。该网络的较小版本Fast YOLO每秒处理155帧，速度惊人，同时仍然是其他实时检测器的两倍。与最先进的检测系统相比，YOLO会产生更多的定位错误，但不太可能预测背景中的误报。最后，约洛学习了物体的一般表示。当从自然图像推广到艺术品等其他领域时，它优于其他检测方法，包括DPM和R-CNN。

6. Conclusion

We introduce YOLO, a unified model for object detection. Our model is simple to construct and can be trained directly on full images. Unlike classifier-based approaches, YOLO is trained on a loss function that directly corresponds to detection performance and the entire model is trained jointly.

Fast YOLO is the fastest general-purpose object detector in the literature and YOLO pushes the state-of-the-art in real-time object detection. YOLO also generalizes well to new domains making it ideal for applications that rely on fast, robust object detection.

6、结论

我们介绍了YOLO，一种用于目标检测的统一模型。我们的模型构造简单，可以直接在完整图像上进行训练。与基于分类器的方法不同，YOLO是在与检测性能直接对应的损失函数上训练的，整个模型是联合训练的。

Fast YOLO是文献中最快的通用目标检测器，YOLO推动了实时目标检测的最新技术。YOLO还可以很好地推广到新的领域，使其成为依赖快速、鲁棒对象检测的应用程序的理想选择。