目录
1.自顶而下和自下而上的区别
在姿态估计任务中,经常看见别人论文上提到这是自顶而下或者自下而上方法,那么怎么区分两者
自顶向下的算法先从图像中检测出所有人,随后利用单人姿态估计的方法对所有人进行姿态估计。自顶向下算法的缺点是算法运行效率随着人数增加而降低,且部分被遮挡的人无法被检测,精度不高。
自底向上的算法,先检测出所有人的骨点,再将骨点进行连接形成图,最后通过图优化的方法剔除错误的连接,实现多人姿态估计。自底向上算法的优点是运行时间不随人数增加而线性增加,更有利于实时多人姿态估计,例如affinity linking、 associative embedding 、HGG 和 HigherHRNet
2.以COCO数据集为例解释评价指标
以下12个度量用于表征COCO上的目标检测器的性能:
1.除非另有说明,否则AP和AR在多个交汇点(IoU)值上取平均值。具体来说,我们使用10个IoU阈值0.50:0.05:0.95。这是对传统的一个突破,其中AP是在一个单一的0.50的IoU上计算的(这对应于我们的度量APIoU=.50 )。
2.AP是所有类别的平均值。传统上,这被称为“平均准确度”(mAP,mean average precision)。我们没有区分AP和mAP(同样是AR和mAR),并假定从上下文中可以清楚地看出差异。
3.AP(所有10个IoU阈值和所有80个类别的平均值)将决定赢家。在考虑COCO性能时,这应该被认为是最重要的一个指标。
4.在COCO中,比大物体相比有更多的小物体。具体地说,大约41%的物体很小(面积<322),34%是中等(322 < area < 962)),24%大(area > 962)。测量的面积(area)是分割掩码(segmentation mask)中的像素数量。
5.AR是在每个图像中检测到固定数量的最大召回(recall),在类别和IoU上平均。AR与提案评估(proposal evaluation)中使用的同名度量相关,但是按类别计算。
6.所有度量标准允许每个图像(在所有类别中)最多100个最高得分检测进行计算。
7.除了IoU计算(分别在框(box)或掩码(mask)上执行)之外,用边界框和分割掩码检测的评估度量在所有方面是相同的
3.single-scale和multi-scale
Single-Scale:是指把一张图片送到 CNN ;
Multi-Scale:一般会送到 CNN 十张图片:比如高宽是 256 Χ 256 的图片,Multi-Scale会在它的四个角以及中心裁剪 5 张 224 Χ 224 的图片,然后再进行翻转,总共得到十张图片,最后全部送到 CNN。
4.推荐干货
目标检测(行为识别)中的一些技巧:目标检测比赛中的tricks(已更新更多代码解析) - 知乎