数据集构成
分为训练集与测试集, 分别包含7481和7518张图片, 每张图片有对应的点云数据。
其中, 只有训练集的ground truth被公布。
Ground truth的格式为:
对应的涵义为:
特点:
- 同时有2D和3D的位置标注, 且都是有方向的。
- 根据遮挡与截断程度分为Easy、Medium、Hard三个级别。
- 由于数据量的原因, 只考虑汽车、人与自行车三个类别。
Evaluation
与2D的检测问题一样, AP(Average Precision)是用于衡量算法性能的主要指标。 计算IoU时使用的维度不同, 得到的AP也不同。 常用的AP计算方式有三种:
- A P 2 D AP_{2D} AP2D: 将3D检测结果框映射到回2D 的Image View, 与图片上的2D ground truth计算IoU。
[外链图片转存失败(img-7z12ypp6-1562296870539)(http://www.cvlibs.net/datasets/kitti/images/button_2dobject.png)] - A P 3 D AP_{3D} AP3D:直接在3D空间计算检测结果与Ground truth的IoU。
[外链图片转存失败(img-Ody7mvYj-1562296870541)(http://www.cvlibs.net/datasets/kitti/images/button_3dobject.png)] - A P B E V AP_{BEV} APBEV: 将3D检测结果与Gound truth映射到2D的鸟瞰图上再计算IoU。
但AP只考虑到检测结果的(分类和)位置上的表现, 不能衡量检测结果的方向是否正确。 所以还有另一个衡量指标 AOS, Average Orientation Similarity, 平均方向相似性, 用于衡量检测结果与Ground truth的方向相似程度。
AP的计算方式为:
A P = 1 11 ∑ r ∈ { 0 , 0.1 , … , 1.0 } max r ^ : r ^ ≥ r P ( r ^ ) AP = \frac {1}{11} \sum_{r \in \{0, 0.1, \dots, 1.0\}} \max