目标检测-yolov1

最新推荐文章于 2021-05-11 08:32:06 发布

qqyouhappy

最新推荐文章于 2021-05-11 08:32:06 发布

阅读量272

点赞数

分类专栏：人工智能目标检测文章标签：深度学习

本文链接：https://blog.csdn.net/qqyouhappy/article/details/106179493

版权

人工智能同时被 2 个专栏收录

11 篇文章 0 订阅

订阅专栏

目标检测

6 篇文章 0 订阅

订阅专栏

项目地址：https://pjreddie.com/darknet/yolo/

YOLO：you only look once，顾名思义：对图片只看一次，找到目标。将整张图片作为输入，输出目标物体的边框和类别。

YOLO的核心思想是在于将目标检测作为回归问题解决。直接在输出层回归bounding box的位置和bounding box所属的类别(整张图作为网络的输入，把 Object Detection 的问题转化成一个 Regression 问题)

具体实现：将原始图片放缩到448×448的尺寸，对图像分成SxS个网格(grid cell)，如果某个object的中心落在这个网格中，则这个网格就负责预测这个object。每个网格需要预测B个边界框（bbox）值(bbox值包括中心点坐标和宽高)，同时为每个bbox值预测一个置信度(confidence scores)。置信度包括P(Object)，IoU。其中P(Object)代表的是有或没有对象的概率，有P(Object)=1，否则0。IoU表示预测的边框与真实边框的重叠度。通过乘上IoU，反映出该边界框预测位置的精度。

ææ¯åäº«å¾ç

SxS个网格，每个网格要预测B个bounding box还要预测C个类别的条件概率，每个bounding box要预测(x, y, w, h)和confidence共5个值。输出就是一个S x S x (5*B+C)的tensor。注意：class信息是针对每个网格的，confidence信息是针对每个bounding box的。

YOLO支持识别20种不同的对象（人、鸟、猫、汽车、椅子等），所以这里有20个值表示该网格位置存在任一种对象的概率。可以记为P(Class_i | Object)，之所以写成条件概率，意思是如果该网格存在一个对象Object，那么它是Ci的概率是 P(Class_i | Object).

测试阶段的NMS阶段对于每个bounding box，我们应该按照下式衡量该框是否应该予以保留:

ææ¯åäº«å¾ç