评价指标调研与策略制定

最新推荐文章于 2024-05-07 13:33:31 发布

sini2018

最新推荐文章于 2024-05-07 13:33:31 发布

阅读量377

点赞数

文章标签：目标检测

本文链接：https://blog.csdn.net/sini2018/article/details/123913350

版权

评价指标调研与策略制定

基础指标的含义
mean Detection Score - Cityscapes 3D

基础指标的含义

目标检测之评价指标mAP
3D detection evaluation

混淆举证

在这里插入图片描述

通过统计并计算每个检测框是否能检测到目标的各种占比来衡量模型的检测效果，因此，我们会把检测框分成如下四种情况，判断的依据主要是通过计算交并比（IoU）。

TP (True Positive) ，真的正样本 = 正样本被分类为正样本；
TN (True Negative) ，真的负样本 = 负样本被分类为负样本；
FP (False Positive) ，假的正样本 = 负样本被分类为正样本；
FN (False Negative) ，假的负样本 = 正样本被分类为负样本（通常为漏检）；
在这里插入图片描述

Precision / Recall

机器学习算法评估指标——3D目标检测
Precision：指的是在模型预测的结果中，其中正确的有多少个。也叫查准率，P= TP/(TP+FP)
Recall：指的是在所有的真实目标中，其中正确的有多少个。也叫查全率，R = TP/(TP+FN)
漏检测：根据 FN/ (FN) miss = FN/(FN+TP)
错/误检测：根据 FP missmatch = FP/(FP+TP)
物体检测评估标准对物体漏检（FN）和错检（FP）进行惩罚，同时规定对同一物体重复且正确的检测只算一次，多余的检测视为错检（FP）。

accuracy

acc = (TP + TN) \ (TP + FP + TN + FN)

F1-score

F1-score：度量一个模型的好坏，综合考虑查准率和查全率。
在这里插入图片描述

IoU

IoU有三种计算方式：
（1）2D IoU：将3D检测结果框映射回2D的Image View
（2）3D IoU：直接在3D空间计算检测结果与Ground truth的IoU
（3）BEV IoU：将3D检测结果与Gound truth映射到2D的鸟瞰图上再计算IoU

ROC

AP（Average Precision）指的是Precision-Recall曲线下的面积。
在这里插入图片描述

mAP

mAP (means Average Precision) 即各类别的AP值的均值

FWIoU

频权交并比，根据每一类出现的频率设置权重，权重和对应的IoU相乘再进行求和。

各个数据集采用的指标

KITTI

mmdet KITTI

We evaluate 3D object detection performance using the PASCAL criteria also used for 2D object detection. Far objects are thus filtered based on their bounding box height in the image plane. As only objects also appearing on the image plane are labeled, objects in don’t car areas do not count as false positives. We note that the evaluation does not take care of ignoring detections that are not visible on the image plane — these detections might give rise to false positives. For cars we require an 3D bounding box overlap of 70%, while for pedestrians and cyclists we require a 3D bounding box overlap of 50%. Difficulties are defined as follows:

Easy: Min. bounding box height: 40 Px, Max. occlusion level: Fully visible, Max. truncation: 15 %
Moderate: Min. bounding box height: 25 Px, Max. occlusion level: Partly occluded, Max. truncation: 30 %
Hard: Min. bounding box height: 25 Px, Max. occlusion level: Difficult to see, Max. truncation: 50 %

use 40 recall positions instead of the 11 recall positions proposed in the original Pascal VOC benchmark.

匹配(true positive判定)
KITTI的matching是从ground truth boxes出发，简单地循环，贪婪地寻找与其IoU(使用什么IoU由当前任务决定)最大的prediction.但是要注意的是，要计算AP,还是要考虑score的高低的。官方的实现与加速实现的思路是一致的。先考虑所有prediction,计算一遍matching，并记录每一个matching的score，然后在PR曲线上采样41个点，得到41个confidence阈值,对于每一个阈值，滤掉比这个阈值更低的boxes，然后重新match，计算这个点上的recall（这个会与采样点一致） precision.以此刻画pr曲线。

使用Precision-Recall曲线定性分析模型精度，使用average precision(AP)定量分析模型精度；对于物体方向检测，可以采用Average Orientation Similarity (AOS)来衡量检测结果与Ground truth的方向相似程度.
KITTI一个很特殊的机制在于分辨了 easy, medium与hard的结果。从代码实现上，可以发现这是一个以2D以及遮挡为主要根据的分别。
Easy包含2D框高度大于40 pixs，遮挡等级最低的objects；
Medium包含2D框高于25 pixs，遮挡等级 0,1的物体；
Hard包含2D框高于25 pixs，遮挡等级0-2的物体(也包含前面提及的所有物体)。

全类平均精度（mAP）
平均方向相似度 AOS（Average Orientation Similarity）
定义：平均方向相似性，计算如下所示：

其中，r代表物体检测的召回率。在因变量r下，方向相似性s∈[0,1]被定义为所有预测样本与ground truth余弦距离的归一化：
在这里插入图片描述

其中D®表示在召回率r下所有预测为正样本的集合，∆θ(i) 表示检出物体i的预测角度与ground truth的差。为了惩罚多个检出匹配到同一个ground truth，如果检出i已经匹配到ground truth设置δi = 1，否则δi = 0。
范围：0~100%
用途：用于衡量检测结果与ground truth的方向相似程

WOD

自动驾驶数据集Waymo浅谈
AP：
mAP:

APH:
Average Precision Weighted by Heading(APH) - Waymo
waymo的算法与KITTI的极度相似，区别在于:

Easy/Difficult分辨方法主要是遮挡程度以及box内部点云的数量。因而是一个完全的3D-oriented的分类标准.
每当发现一个true-positive matching, tp=Δθπ,相当于只有角度是准确的才能得到完整的一个true-positive,否则会加上一个惩罚权重。而False positive和False negative没有变化。

Waymo Open Dataset Tutorial
Waymo Open Dataset Tutorial
Waymo Open Dataset 3D Semantic Segmentation Tutorial

nuScenes

自动驾驶数据集nuScenes浅谈

评价指标
对于物体检测问题，对于t时刻的场景，我们可以使用[t-0.5,t]内的传感器数据去检测场景内的物体。并且我们只是选择了23种物体中的10种作为检测对象。他们分别是Car Pedestrian Bus Barrier Traffic cone. Truck Trailer Motorcycle. Constructions. Bicycle。

在评测时依旧使用检测领域的AP，不过AP的阈值匹配不使用IoU来计算，而使用在地平面上的2D中心距离d来计算。这样解耦了物体的尺寸和方向对AP计算的影响。d设置为
D={0.5,1,2,4}米。在计算AP时，去除了低于0.1的recall和precision并用0来代替这些区域。不同类以及不同难度D用来计算mAP：

除了mAP外，nuScenes还提出了一个指标NDS，该指标使用truth positive(TP)指标计算出来
nuscene 的评价metric是相当独特的，作者的原意是希望有metric分别表达对中心距离、朝向、大小甚至速度等细项的计算结果。最后的NDS单一数值会是多个metric的均值。

其中中 ℙ 是五个真阳性均值指标的集合。

• 平均平移误差(ATE) 是二维欧几里德中心距离(单位为米).

• 平均尺度误差(ASE) 是1 - IoU, 其中IoU 是角度对齐后的三维交并比

• 平均角度误差(AOE) 是预测值和真实值之间最小的偏航角差。(所有的类

别角度偏差都在360∘ 内, 除了障碍物这个类别的角度偏差在180∘ 内)

• 平均速度误差(AVE) 是二维速度差的L2 范数(m/s)。

• 平均属性错误(AAE) 被定义为1−acc, 其中acc 为类别分类准确度。

对于每个TP 度量，我们计算所有类的平均TP 度量(mTP)，并且所有的TP 指标使用 = 2 米的中心距离计算。

mean Detection Score - Cityscapes 3D

Cityscapes 基于他原有的数据也发布了一个三维检测数据标注集。与之前的数据最大的不同有二，首先是它仅使用双目数据进行标注，其次是它标注了3个维度的旋转。这个数据集的设计就是为了评价单目的3D检测的，因而不采用3D IoU而选择了不同的设计。

其评价指标 mDS 由以下几个参数组成:

2D AP: 与图像2D一致, IoU≥0.7
Center Distance: 俯瞰图距离 BEVCD.
Yaw Similarity: yaw角
Pitch-Roll Similarity: pitch-roll作者认为在无人驾驶场景往往是耦合的，因而要放在一起评判.
Size Similarity: 大小 whl

有几个点需要注意:

AP的计算根据代码，在PR曲线上采样了50个点.
后面四项的计算，都是depth-dependent的。代码上每5米分一个bin，统计这个区间内的match,根据这个区间的match计算对应四个项目中该bin的score，然后每个项目会对各个bin求平均.
后面四项计算的时候，confidence threshold是固定的，2D AP计算的时候会通过变化confidence threshold在一系列的recall值上计算aP.这里的confidence threshold固定为 cw=argmaxc∈|0,1|p©r© 作者的intuition是说这个评价方案和现实部署的时候更为一致(我们会直接采用一个平衡好recall and precision的 threshold给出预测).