Task09：目标检测基础；图像风格迁移；图像分类案例1

最新推荐文章于 2024-04-07 14:52:34 发布

邦戈栗子

最新推荐文章于 2024-04-07 14:52:34 发布

阅读量332

点赞数

分类专栏： pytorch

本文链接：https://blog.csdn.net/qq_42189368/article/details/104469617

版权

pytorch 专栏收录该内容

19 篇文章 0 订阅

订阅专栏

目标检测的任务：目标检测定位图像中目标的存在，并在该目标周围绘制一个边界框(bounding box)。这通常包括两个过程:预测目标的类型，然后在该目标周围绘制一个框。

目标检测的难点：

目标的类别不确定、数量不确定、位置不确定、尺度不确定

传统算法的解决方式

都要金字塔多尺度+遍历滑窗的方式，逐尺度逐位置判断"这个尺度的这个位置处有没有认识的目标"，非常笨重耗时，并不能很好的推广适用。

现状

近期顶尖(SOTA)的目标检测方法几乎都用了anchor技术

作用

首先预设一组不同尺度不同位置的固定参考框，覆盖几乎所有位置和尺度，每个参考框负责检测与其交并比大于阈值 (训练预设值，常用0.5或0.7) 的目标，anchor技术将问题转换为"这个固定参考框中有没有认识的目标，目标框偏离参考框多远"，不再需要多尺度遍历滑窗，真正实现了又好又快，如在Faster R-CNN和SSD两大主流目标检测框架及扩展算法中anchor都是重要部分。

目标检测算法通常会在输入图像中采样大量的区域，然后判断这些区域中是否包含我们感兴趣的目标，并调整区域边缘从而更准确地预测目标的真实边界框（ground-truth bounding box）。其中的一种方法：它以每个像素为中心生成多个大小和宽高比（aspect ratio）不同的边界框。这些边界框被称为锚框（anchor box）。

设输入图像高为hh，宽为ww。我们分别以图像的每个像素为中心生成不同形状的锚框。设大小为s∈(0,1]且宽高比为r>0，那么锚框的宽和高将分别为ws√r和hs/√r。当中心位置给定时，已知宽和高的锚框是确定的。

设定好一组大小s1,…,sn和一组宽高比r1,…,rm。如果以每个像素为中心时使用所有的大小与宽高比的组合，输入图像将一共得到whnm个锚框。虽然这些锚框可能覆盖了所有的真实边界框，但计算复杂度容易过高。因此，我们通常只对包含s1或r1的大小与宽高比的组合感兴趣，即

(s1,r1),(s1,r2),…,(s1,rm),(s2,r1),(s3,r1),…,(sn,r1)

也就是说，以相同像素为中心的锚框的数量为n+m−1=。对于整个输入图像，我们将一共生成wh(n+m−1)=个锚框。

交并比（IOU）和非极大值抑制（NMS）

交并比（Intersection over Union）和非极大值抑制是（Non-Maximum Suppression）是目标检测任务中非常重要的两个概念。例如在用训练好的模型进行测试时，网络会预测出一系列的候选框。这时候我们会用NMS来移除一些多余的候选框。即移除一些IOU值大于某个阈值的框。

# INPUT：所有预测出的bounding box (bbx)信息（坐标和置信度confidence），　IOU阈值（大于该阈值的bbx将被移除）
for object in all objects:
	(1) 获取当前目标类别下所有bbx的信息
	(2) 将bbx按照confidence从高到低排序,并记录当前confidence最大的bbx
	(3) 计算最大confidence对应的bbx与剩下所有的bbx的IOU,移除所有大于IOU阈值的bbx
	(4) 对剩下的bbx，循环执行(2)和(3)直到所有的bbx均满足要求（即不能再移除bbx）

需要注意的是，NMS是对所有的类别分别执行的。举个栗子，假设最后预测出的矩形框有2类（分别为cup, pen）,在NMS之前，每个类别可能都会有不只一个bbx被预测出来，这个时候我们需要对这两个类别分别执行一次NMS过程。