之前做了一个较密集场景下的人脸检测项目,主要场景是面向阶梯教室场景。
主要难点:
- 目标密集
- 目标尺度变化大
使用检测网络:
我们知道随着神经网络的层数的增加,其予语义信息会更丰富,但位置信息会越不准确,但同一大小的神经元的感受会越大。所以有效融合高层和低层的信息,即融合语义信息和位置信息,会对检测模型有很大提升。
所以目前主流的检测网络均采用如(d)所示的FPN结构,由于任务场景较小,采用了Retinanet这种单阶段的检测模型。
数据集:
- 数据介绍:这里采用了CrowdedHuman数据集,该数据集不仅包含人头数据,也包括整体行人,和可视部分,其中样本共15000张,分三个压缩包,共339565人,平均每张约23人。
- 数据格式:
数据为.odgt格式,可按照python的dict直接读取。 - 数据样例: