YOLOV1_《You Only Look Once: Unfied,Real-Time Object Detection》论文概读

最新推荐文章于 2023-11-24 14:20:30 发布

sunny_develop

最新推荐文章于 2023-11-24 14:20:30 发布

阅读量398

点赞数

分类专栏：文献深度学习文章标签：深度学习

本文链接：https://blog.csdn.net/guanyuqiu/article/details/109093773

版权

深度学习同时被 2 个专栏收录

10 篇文章 0 订阅

订阅专栏

文献

9 篇文章 0 订阅

订阅专栏

YOLO概述

YoLo与传统检测算法相比较有以下几个优点：

YoLo运行特别快；
YoLo是对整幅图像进行预测的，背景错误比较少；
YoLo可以学到目标的广义特征，泛化性比较强；

具体的实现过程

把输入图像分为s*s个grids，如果一个目标的中心在一个grid单元中，这个grid单元就表示识别该目标。每个grid预测B个目标框和每个目标框的confidence，confidence代表了所预测的box含有object的置信度和这个box预测的多准两重信息。如果没有目标存在单元格中，confidence就是0。每一个目标框包含5个预测值:x,y,w,h和confidence，还有包含目标的类别信息。

YoLo是一个回归的问题，把图片分成S*S的小格子，对于每一个grid预测B个目标框，这些目标框的估计值confidence和C个类别的概率。这些预测值被编码为S*S*(B*5+C)个tensor；

模型结构

输入图像大小为448*448，经过若干个卷积层和池化层，变为7*7*1024张量(图中倒数第3个模块)，最后经过两层全连接层，输出张量维度为7*7*30.和一般的卷积物体分类网络没有太大区别，最大的区别是：分类网络最后的全连接层，一般连接于一个一维向量，向量的不同代表不同类别的概率，而这里输出向量是一个三维的张量(7*7*30),代表每个grid中的类别概率。这个模型结构受启发于GoogleNet.

在具体实现时，对于目标框的w和h用图像的宽和高进行归一化到0和1之间，对于目标框的坐标x和y归一化到距离格子点坐标的偏移值，归一化到0和1之间。