YOLO阅读笔记

最新推荐文章于 2024-08-02 20:02:12 发布

头条推荐此用户

最新推荐文章于 2024-08-02 20:02:12 发布

阅读量623

点赞数

分类专栏：目标检测

目标检测专栏收录该内容

4 篇文章 1 订阅

订阅专栏

YOLO的有点（摘自YOLO原文）：

1、YOLO检测框架速度非常快，Tian X可以达到45帧/s，

2、比起其他实时检测框架具有更高的精度

3、背景检测错误低

4、对艺术图像依然有很好的检测效果

缺点：

检测精度比低于当前最好的检测框架

统一检测：

1、将图像分成S*S的网格，物体中心落在某一个网格中，则该网格负责预测该物体

2、每一个网格对预测B个边框和置信度，若网格中没有目标则置信度输出为0

3、每个边框包括5个预测值：x,y,w,h和confidence. 其中x,y表示相对于网格的边框中心，w,h是归一化后的边框长和宽，confidence是置信度

4、每个网格单元还需要预测C个类别信息的概率，表示一个网格单元包含目标的概率

5、文中设定每个网格预测B个边框，讲网格划分为7*7的大小，VOC数据集上有20个类别，因此每个网格单元需要预测20个类别概率

网络设计

1、卷积层负责提取图像特征，全连接层负责预测输出的概率和坐标

2、网络由24个卷积层和2个全连接层组成，网络结构如下图所示：

训练网络

1、使用ImageNet一千类的数据对网络进行了与训练，网络输入为448*448

2、网络最后一层负责预测类别概率和边框的坐标，边框的宽和高通过使用了输入图像宽和高进行了归一化处理。（x,y）是归一化后网格位置的偏移

3、网络最后一层使用了现行激活函数，其他层使用的系数为0.1的liaky ReLU激活函数

4、使用平方误差对网络进行优化，因为平方误差容易优化，但是平方误差存在的问题是：8维的信息坐标和20为的类别概率被认为是同等重要，这并不是理想的处理方式。并且网格中可不能不包含目标，这将导致置信度为零，在训练初期可能导致网络发散。因此通过设置两个参数来纠正这个问题，增加8维的信息坐标的权重

5、每个网格负责预测B个bounding boxes，而在训练的过程中，只需要IOU最大的那个预测

6、损失函数如下图所示：

YOLO 的缺点：

1、如果两个物体落在同一个网格单元，YOLO模型只能预测出一个目标结果

2、对训练集中不包含的长宽比检测效果比较差

头条推荐此用户

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

头条推荐此用户 CSDN认证博客专家 CSDN认证企业博客

码龄12年

17: 原创

25万+: 周排名

228万+: 总排名

4万+: 访问

: 等级

639: 积分

15: 粉丝

14: 获赞

23: 评论

87: 收藏

私信

关注

热门文章

分类专栏

C++ 2篇
opencv 4篇
Caffe 1篇
目标检测 4篇
Java 1篇
tensorflow 2篇
网页 2篇
MXNET
互联网 1篇
pytorch 1篇

最新评论

可视化voc数据
创不了浩: 感谢博主分享，debug了一下，29行有个错误，putText参数错了，可以改成 cv2.putText(image,info[0],(info[1],info[2]),cv2.FONT_HERSHEY_PLAIN,1.2,(255,255,255),2)
可视化voc数据
头条推荐此用户: 这个没遇到过，看样子像是中文编码的问题。可是尝试在开头加#-*- using encoding: utf-8 -*- 。或者尝试用英文
可视化voc数据
yezzii: UnicodeDecodeError: 'gbk' codec can't decode byte 0xa2 in position 26: illegal multibyte sequence 请问怎么解决
阴阳师自动刷御魂python实现
开无敌的小熊猫: 模拟器截屏不行的，用adb来截屏
slim进行finetune流程
AZ丶墩回复 cece_jy: 解决了吗？哥们我也一样的问题

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。