关于深度学习下目标检测入门那点事

最新推荐文章于 2022-04-19 16:05:30 发布

婕婕高升_OD

最新推荐文章于 2022-04-19 16:05:30 发布

阅读量1.6k

点赞数 4

分类专栏：目标检测网络文章标签：深度学习神经网络图像识别图像处理机器学习

本文链接：https://blog.csdn.net/JJGS_OD/article/details/110957998

版权

本文介绍了深度学习下目标检测的基础知识，包括边界框、IOU、NMS、评价参数等概念，详细阐述了精确率、召回率、P-R曲线、AP与mAP的含义，并探讨了目标检测与图像分类的区别，解析了检测网络结构和发展历程，以及单阶段与两阶段网络的区别。适合深度学习初学者入门。

摘要由CSDN通过智能技术生成

(本博客创建目的源于实验室小组内部方便知识传承学习，但当然不会吝啬于私密不公开，但有些文字段落会是写给小组内看的，如有疑问麻烦跳过即可，同时也欢迎各位本硕博报考西安电子科技大学人工智能学院。）
首先，如果你看到这篇博客，恭喜你，大概率你已经加入并成为了我们实验室的一员，预祝你往后的科研生活丰富且逸趣横生。
一个好的实验室科研氛围需要所有人一起努力，虽然说写博客会耗费一些额外的时间，但为了更好地传承、方便学习新的知识，我们开通了这个CSDN账号，而这也是我们的第一篇博客，同时希望这个工作能够一直坚持下去，往后还要依靠诸位，提前谢过。
写自2020/12/10 2020级要泉赫

你需要知道的学前班知识

如果你对目标检测已经了然于胸，那这篇博客建议直接跳过。
如果你对目标检测的基础知识了如指掌，那First Part建议直接跳过。
如果你对深度学习网络一点都不了解，那这篇博客也建议先跳过。

边界框（Bounding Box）

顾名思义，如果你看过一些目标检测后的结果，你肯定会看到物体周围都会围有一个小框，这便是最终得到的检测（Detection Result）框。当然，除了检测框之外，还有真值（Ground Truth）框与预测（Predicted）框，这三种框本质上都可以被称为Bounding Box（简称bbox），因为它都是为了表示物体位置信息而生成的边界框。首先，每个目标都会有一个表示它准确位置信息的真值框，之后我们的网络在训练过程中会根据真值框等信息进行学习从而生成无数的预测框，最后，网络会层层筛选计算输出最终的结果——检测框。
通常情况下，我们会将真值框直接称为Ground Truth（简称GT），将经过网络预测所得出的边界框（即Pred BBox）称之为BBox，最终的检测结果框称为Detection Result（简称DT）。如下图中，绿色的框即为GT BBox，红色的框则Pred BBox（图源网络）。
图1 GT与BBox

交并比（IOU）

在明确了BBox的概念之后，IOU便很好理解了，它其实就是一个用来筛选预测BBox衡量指标，话不多说，直接上图（图源网络）。
图2 IOU计算
简单点说，就是GT BBox与Pred BBox交集的面积 / 二者并集的面积，这个要是再不清楚就真的过分了啊。

非极大值抑制（NMS）

在学习目标检测初期时候，我个人觉得这个概念相比于前面肯定还是有那么一点拗口的，不过理解了之后你会发现其实也就soso，它其实就是筛选我们预测框的一个方法。
这里我不打算再自己讲述一遍了，因为博客的初衷也只是分享自己学习过程中的资料与心得，既然可以直接站在巨人的肩膀上，又何苦自己耗时耗力重新写一遍呢是吧，前人栽树后人乘凉嘛。