yolo系列全集

Advancement of Konja

已于 2024-02-13 01:43:47 修改

阅读量808

点赞数 22

分类专栏：目标检测文章标签： YOLO 目标检测

于 2024-02-13 01:27:29 首次发布

本文链接：https://blog.csdn.net/juruodejinjie/article/details/136104661

版权

目标检测专栏收录该内容

2 篇文章 0 订阅

订阅专栏

本文详细介绍了YOLo_v1模型的结构，包括其全局推理方法、边界框预测、类别概率计算、NMS机制以及网络设计。着重讨论了预训练、训练过程中的优化策略和模型限制。

摘要由CSDN通过智能技术生成

yolo_v1模型

前言：最近做毕设，做了一些yolo系列的论文，将自己的一些见解分享于此，可能表述能力有限~
一、模型的具体细节
1：利用整个图片来预测单个边界框的类别
2：用一张图片预测整个图片的分类
3：对整个图像和图像中的图形进行全局推理
4: 检测方法如下：如果一个物体落在的某个单元格上，这个单元格负责检测这个物体一张图片被分成ss的单元格
5：每个网格单元预测的包含B个边界框和每个边界框的置信度,置信度表示这个边界框有物体的置信区间，置信度的计算等于边界框和真实值的交集的数据大小（多少）
边界框包含5个预测指标：
x,y表示相对于网格单元的中心的距离
w,h代表的是相对于整张图象距离的宽度和深度
置信度：代表的是预测边框和真实边框的IOU
每个网格都包含了对C个类别的预测可能性：我们只预测每个网格的对于每个类别的精确度，不预测B个边界框对于每个类别的预测度(其实这样简单了很多)
另外：如何预测边界框的类别改率呢：
边界框的类别概率=边界框的置信度单元格的类别概率
这个指标反应：边界框的预测概率和预测的盒子的匹配度
非极大值抑制(NMS):采用最大值搜索的方式作为类别判断
6：#网络设计# 将检测问题划分为回归问题：
数据集：PASCAL VOC检测数据集
yolo_v1网络架构：启发自：GoogLeNet 分类问题
：24个卷积层伴随两个全连接层（不同于GoogLeNet的模型）
：在每个33过滤器后面的卷积层后面跟随着1*1的小采样层（相似于Lin et）
：全部的网络架构：
网络架构图

7x7x64-s-2 表示步长为2,使用的过滤器为：7764个通道
ImageNet classification 上面预训练了一下:
7：训练一个快速的yolo版本推动边界的快速目标检测
fast yolo网络架构：9个卷积层更少的过滤器
除了网络模型大小不同其余的训练和测试的参数一致
8：网络模型的输出是7730的预测的张量
9：网络训练：整个过程中，网络的具体输入和具体输出如下：
具体细节图

二、模型训练：
预训练：在ImageNet1000-class 上进行预训练：
20个卷积层和利用平均池化层+一个全连接层
训练过程：利用Darknet 的网络框架用于所有的训练和推理
#实验证明：预训练可以提高精度的，由于分辨图像的细粒度可以提升分辨效率，将224224->448*448，
激活函数：最后一层全连接层是relu激活函数，中间的全连接层是泄露的激活函数： leaky rectified linear acti-vation:

损失函数：误差平方和：比较简单去最优化，但是不利于最优化最大的平均精度，定位误差和分类误差同等加权可能不是较好的结果，每个网格里面没有全部的类别，置信度为0，导致模型具有不稳定性，解决问题：增加边界框预测损失减少不包含对象的置信度损失，前面是5后面是0.5，但是在大的边框和小的边框是一样的权重，我们预测的高度和宽度的平方根而不是宽度和高度
#最优化下面的损失函数
损失优化函数

dropout比例：0.5
*三、推断：
1：为测试数据预测检测结果需要一次评估：
2：yolo算法只有一个网络架构所以速度非常快
*四：yolo的限制：图片大小对图片有一定的影响
yolo系列
若需要上述系列，点击下方获取资源即可：
https://download.csdn.net/download/juruodejinjie/88830500