计算机视觉中的细节问题(九)

参考  计算机视觉中的细节问题(九) - 云+社区 - 腾讯云

(1)、目标检测中NMS的原理

对于Bounding Box的列表B及其对应的置信度S,采用下面的计算方式。选择具有最大score的检测框M,将其从B集合中移除并加入到最终的检测结果D中。通常将B中剩余检测框中与M的IoU大于阈值Nt的框从B中移除。重复这个过程,直到B为空。

重叠率(重叠区域面积比例IOU)阈值

常用的阈值是0.3~0.5.
其中用到排序,可以按照右下角的坐标排序或者面积排序,也可以是通过SVM等分类器得到的得分或概率,R-CNN中就是按得分进行的排序。

                                                     https:pic1.zhimg.com/v2-19c03377416e437a288e29bd27e97c14_b.png

就像上面的图片一样,定位一个车辆,最后算法就找出了一堆的方框,我们需要判别哪些矩形框是没用的。非极大值抑制的方法是:先假设有6个矩形框,根据分类器的类别分类概率做排序,假设从小到大属于车辆的概率 分别为A、B、C、D、E、F。

  1. 从最大概率矩形框F开始,分别判断A~E与F的重叠度IOU是否大于某个设定的阈值;
  2. 假设B、D与F的重叠度超过阈值,那么就扔掉B、D;并标记第一个矩形框F,是我们保留下来的;
  3. 从剩下的矩形框A、C、E中,选择概率最大的E,然后判断E与A、C的重叠度,重叠度大于一定的阈值,那么就扔掉;并标记E是我们保留下来的第二个矩形框;

就这样一直重复,找到所有被保留下来的矩形框。R-CNN中使用了NMS来确定最终的bbox,其对每个候选框送入分类器,根据分类器的类别分类概率做排序(论文中称为greedy-NMS)。

(2)、Pytorch分布式训练中local_rank的含义

torch.cuda.set_device(args.local_rank)设定默认的GPU,因为torch.distributed.launch为我们触发了n个YOUR_TRAINING_SCRIPT.py进程,n就是我们将要使用的GPU数量。

(3)、IOU的计算方式

IOU是两个矩形的交集与两个矩形并集的比值(可以这样理解吧)。

如下图所示:

黄色矩形起点坐标(x11,y11),终点坐标(x12,y12)

蓝色矩形起点坐标(x21,y21),终点坐标(x22,y22)。

则:

黄色矩形宽W1=x12-x11,高H1=y12-y11

蓝色矩形宽W2=x22-x21,高H1=y22-y21

两个矩形交集(红色矩形)宽W=W1+W2-(x22-x11)=x12-x21 (谢谢1楼@ plllala的提醒,已更正)

两个矩形交集(红色矩形)高H=H1+H2-(y22-y11)=y12-y21   (谢谢1楼@ plllala的提醒,已更正)

红色矩形面积(两个矩形交集)为area=W*H

两个矩形并集为area1+area2-area

如果x12<x21或者y12<y21,说明两个矩形无公共区域,IOU=0;

否则,IOU=area/(area1+area2-area)

(4)、什么是自适应学习率

损失通常高度敏感于参数空间中的某些方向,而不敏感于其他。动量算法可以在一定程度上缓解这些问题,但这样做的代价是引入了另一个超参数。在这种情况下,自然会问有没有其他方法。如果我们相信方向敏感度在某种程度是轴对称的,那么每个参数设置不同的学习率,在整个学习过程中自动适应这些学习率是有道理的。

(5)、什么是同步Batch Norm

BatchNorm的实现都是只考虑了single gpu。也就是说BN使用的均值和标准差是单个gpu算的,相当于缩小了mini-batch size。至于为什么这样实现,1)因为没有sync的需求,因为对于大多数vision问题,单gpu上的mini-batch已经够大了,完全不会影响结果。2)影响训练速度,BN layer通常是在网络结构里面广泛使用的,这样每次都同步一下GPUs,十分影响训练速度。但是为了达到更好的效果, 实现Sync-BN也是很有意义的。在深度学习平台框架中多数是采用数据并行的方式, 每个GPU卡上的中间数据没有关联。为了实现跨卡同步BN, 在前向运算的时候需要计算全局的均值和方差,在后向运算时候计算全局梯度。 最简单的实现方法是先同步求均值,再发回各卡然后同步求方差,但是这样就同步了两次。实际上均值和方差可以放到一起求解, 只需要同步一次就可以。

(6)、锚框

最早是由Faster R-CNN提出。

(7)、目标检测中的共享卷积层

SPP-Net提出了共享卷积层的方式,Fast R-CNN采用了这种方法。

(8)、实例级和目标级的区别

实例级只判断位置和类别,目标级还要判断类别

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Wanderer001

ROIAlign原理

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值