【目标检测】YOLOV1

最新推荐文章于 2024-08-27 15:59:12 发布

qq_1532145264

最新推荐文章于 2024-08-27 15:59:12 发布

阅读量674

点赞数 7

分类专栏：机器学习文章标签：目标检测 YOLO 图像处理深度学习机器学习神经网络计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_1532145264/article/details/140908645

版权

机器学习专栏收录该内容

15 篇文章 0 订阅

订阅专栏

You Only Look Once: Unified, Real-Time Object Detection

1、核心思想

将整张图片作为网络的输入，直接在输出层对 BBox 的位置和类别进行回归。

在这里插入图片描述

Resize image：将输入图片resize到448x448。
Run ConvNet：使用CNN提取特征，FC层输出分类和回归结果。
Non-max Suppression：非极大值抑制筛选出最终的结果。

2、前向推断

（1）前向推断流程：

1）首先将输入图片分成 S × S 个网格（grid cell），如果某个 object 的中心落在这个网格中，则这个网格就负责预测这个 object 。

2）每个网格需要预测 B （YOLO V1 中 B = 2）个BBox 的位置信息和 confidence（置信度），一个 BBox 对于着四个位置信息 (x, y, w, h) 和一个 confidence 信息。

x —— 预测框中心的横坐标
y —— 预测框中心的纵坐标
w —— 预测框的宽度
h —— 预测框的高度
confidence（置信度）—— 预测框中包含目标物体的概率值

3）每个网格要预测 B 个 bounding box 还要预测 C 个 categories 。输出就是S × S × ( 5 ∗ B + C ) 的一个 tensor 。

4）阈值处理：根据 confidence ，去除掉大部分不含预测物体的背景框。

5） NMS （Non-Maximum Suppression，非极大值处理）处理：利用 IoU 去除掉多余的 bounding box，防止重复预测同一物体。

在这里插入图片描述

（2）YOLO V1 网络结构

YOLO V1 的检测网络有 24 个卷积层和 2 个全连接层。交替使用 1 x 1 个卷积层减少了前一层的特征空间。我们在 ImageNet 分类任务上以一半的分辨率（224 x 224 输入图像）对卷积层进行预处理，然后将分辨率提高一倍进行检测，也就是将图片尺寸提高 448 x 448 。输入图片 reshape 为 448 x 448 x 3 ，在经过卷积层以及 4096 和 1470 两个全连接层之后，输出 7 x 7 x 30 的特征图。

在这里插入图片描述

为什么会输出 7 x 7 x 30 的特征图？

因为输入图像划分为 7 × 7 grid cell ，并且每个 grid cell 对应输出 30 维的向量（YOLO V1 每个 grid cell 预测 2 个 BBox）：

在这里插入图片描述

3、反向传播

损失函数

在 YOLO V1 目标检测过程中一共需要计算 5 个误差：

负责检测物体 bbox 中心点定位误差
负责检测物体 bbox 宽高定位误差
负责检测物体 bbox 置信度 confidence 误差
不负责检测物体 bbox 置信度 confidence 误差
负责检测物体的 grid cell 分类误差

在这里插入图片描述

YOLO V1 相较于 Fast R-CNN 优势主要体现在它是 one stage 网络，推理速度快。

[REFERENCE]
【精读AI论文】YOLO V1目标检测，看我就够了
 yolov1：背景介绍与算法精讲
 YOLO系列论文精读总结——YOLOv1篇
 YOLO学习笔记——第一篇YOLOv1

关注

7
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
【目标检测】YOLOV1

You Only Look Once: Unified, Real-Time Object Detection
复制链接

扫一扫

专栏目录

qq_1532145264 CSDN认证博客专家 CSDN认证企业博客

码龄1年

81: 原创

3万+: 周排名

2万+: 总排名

4万+: 访问

: 等级

1165: 积分

298: 粉丝

341: 获赞

22: 评论

701: 收藏

私信

关注

热门文章

分类专栏

产品经理 2篇
Java 10篇
数据库 4篇
Web 4篇
机器学习 15篇
数据分析 3篇
Linux 1篇
小程序
软件测试 1篇
Matlab 1篇
English 2篇
计算机基础知识（考研408） 5篇
数学 2篇
阅读书籍 21篇
科技财经 1篇
感悟 3篇
运动 1篇
社交
其他 6篇

最新评论

有点意思的求学之路
rYu1nser: 学长上岸到哪里了呀
基于MATLAB车牌识别系统设计
我不想再敲啦: 哥，你给的代码下载下来咋用啊
计算机基础知识（考研408）——操作系统
小心小心vx: 请问可以求一份文档吗？发到邮箱可以吗？349338829@qq.com，可以小偿！！
Python数据可视化第三方库pyecharts
CSDN-Ada助手: 恭喜您发布了第15篇博客！看到您对Python数据可视化第三方库pyecharts的深入探讨，我感到非常佩服。希望您能继续保持创作的热情和耐心，不断分享您的经验和见解。下一步，我建议您可以尝试结合实际案例，深入分析pyecharts在数据可视化中的应用，这样可以让读者更直观地理解pyecharts的强大之处。期待您更多的精彩内容，加油！
基于Python的城市招聘信息爬取和分析
CSDN-Ada助手: 恭喜作者在技术领域的深度探索，第16篇博客内容丰富，对Python的应用有着深入的研究和实践。希望作者能够继续保持创作的热情，不断分享自己的学习和实践经验。或许下一步可以考虑分享一些实际案例或者应用场景，让读者更好地理解Python在城市招聘信息爬取和分析中的具体应用。期待作者更多精彩的创作！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。