计算机视觉中的细节问题(九)_阈值设定重叠区-CSDN博客

本文链接：https://blog.csdn.net/weixin_36670529/article/details/105797954

(1)、目标检测中NMS的原理

对于Bounding Box的列表B及其对应的置信度S，采用下面的计算方式。选择具有最大score的检测框M，将其从B集合中移除并加入到最终的检测结果D中。通常将B中剩余检测框中与M的IoU大于阈值Nt的框从B中移除。重复这个过程,直到B为空。

重叠率(重叠区域面积比例IOU)阈值

常用的阈值是0.3~0.5.
其中用到排序，可以按照右下角的坐标排序或者面积排序，也可以是通过SVM等分类器得到的得分或概率，R-CNN中就是按得分进行的排序。

就像上面的图片一样，定位一个车辆，最后算法就找出了一堆的方框，我们需要判别哪些矩形框是没用的。非极大值抑制的方法是：先假设有6个矩形框，根据分类器的类别分类概率做排序，假设从小到大属于车辆的概率分别为A、B、C、D、E、F。

从最大概率矩形框F开始，分别判断A~E与F的重叠度IOU是否大于某个设定的阈值；
假设B、D与F的重叠度超过阈值，那么就扔掉B、D；并标记第一个矩形框F，是我们保留下来的；
从剩下的矩形框A、C、E中，选择概率最大的E，然后判断E与A、C的重叠度，重叠度大于一定的阈值，那么就扔掉；并标记E是我们保留下来的第二个矩形框；

就这样一直重复，找到所有被保留下来的矩形框。R-CNN中使用了NMS来确定最终的bbox，其对每个候选框送入分类器，根据分类器的类别分类概率做排序(论文中称为greedy-NMS)。

(2)、Pytorch分布式训练中local_rank的含义

torch.cuda.set_device(args.local_rank)设定默认的GPU，因为torch.distributed.launch为我们触发了n个YOUR_TRAINING_SCRIPT.py进程，n就是我们将要使用的GPU数量。

(3)、IOU的计算方式

IOU是两个矩形的交集与两个矩形并集的比值（可以这样理解吧）。

如下图所示：

黄色矩形起点坐标(x11,y11)，终点坐标(x12,y12)

蓝色矩形起点坐标(x21,y21)，终点坐标(x22,y22)。

则：

黄色矩形宽W1=x12-x11，高H1=y12-y11

蓝色矩形宽W2=x22-x21，高H1=y22-y21

两个矩形交集（红色矩形）宽W=W1+W2-(x22-x11)=x12-x21 （谢谢1楼@ plllala的提醒，已更正）

两个矩形交集（红色矩形）高H=H1+H2-(y22-y11)=y12-y21 （谢谢1楼@ plllala的提醒，已更正）

红色矩形面积（两个矩形交集）为area=W*H

两个矩形并集为area1+area2-area

如果x12<x21或者y12<y21，说明两个矩形无公共区域，IOU=0；

否则，IOU=area/(area1+area2-area)

(4)、什么是自适应学习率

损失通常高度敏感于参数空间中的某些方向，而不敏感于其他。动量算法可以在一定程度上缓解这些问题，但这样做的代价是引入了另一个超参数。在这种情况下，自然会问有没有其他方法。如果我们相信方向敏感度在某种程度是轴对称的，那么每个参数设置不同的学习率，在整个学习过程中自动适应这些学习率是有道理的。

(5)、什么是同步Batch Norm

BatchNorm的实现都是只考虑了single gpu。也就是说BN使用的均值和标准差是单个gpu算的，相当于缩小了mini－batch size。至于为什么这样实现，1）因为没有sync的需求，因为对于大多数vision问题，单gpu上的mini-batch已经够大了，完全不会影响结果。2）影响训练速度，BN layer通常是在网络结构里面广泛使用的，这样每次都同步一下GPUs，十分影响训练速度。但是为了达到更好的效果, 实现Sync-BN也是很有意义的。在深度学习平台框架中多数是采用数据并行的方式, 每个GPU卡上的中间数据没有关联。为了实现跨卡同步BN, 在前向运算的时候需要计算全局的均值和方差，在后向运算时候计算全局梯度。最简单的实现方法是先同步求均值，再发回各卡然后同步求方差，但是这样就同步了两次。实际上均值和方差可以放到一起求解, 只需要同步一次就可以。