近期,中国人工智能学会在阿里云天池平台上发布了首届全球人工智能技术创新大赛,其中一个赛道是在10亿像素的图像视频中进行目标检测与跟踪,总奖池50万人民币,初赛将于3月2日开赛。
随着视频监控的发展,大范围场景的自动化检测识别逐渐成为需求,本文以该赛题为背景,介绍相关技术方案,感兴趣的朋友可扫码加入大赛技术群。
报名链接:
https://tianchi.aliyun.com/s/be6691073b92dc4f2c2f230db97af7f5
(点击文末阅读原文直达)
1.赛题介绍
1.1 任务介绍
任务一
目标检测任务:在PANDA数据集上完成车辆检测和行人检测,其中行人检测需要检测出可见范围框、全身范围框和头部范围框,车辆检测只需要检测出可见范围框。
任务二
多目标跟踪任务:输出PANDA视频序列上的行人轨迹,即输出每帧图片的行人ID和位置框。
1.2 数据集介绍
PANDA是清华大学开放的一个十亿像素的高分辨率、宽视场的图片\视频数据集,该数据集有如下特点:
宽视场,可视范围为1平方公里左右;
图片分辨率很高,因此即使对于远处的行人,依然有很丰富的细节特征;
部分场景人口密集。
示例图片如下图所示:
在该数据集上在做目标检测和多目标跟踪任务,有如下难点:
由于数据集中的图片有很宽的视场,近处的行人和远处的行人的尺寸有较大差异;
场景复杂,一些场景下行人被遮挡;
图片分辨率比较大,对算法的运行效率有挑战;
需要对运动距离和运动时间长的行人进行跟踪。
1.3 评价指标
任务一
按照COCO数据集规定的计算方式计算 和 ,计算两者的调和平均数作为得分:
任务二
按照MOTChallenge规定的计算方式计算