点击蓝字
关注我们
AI TIME欢迎每一位AI爱好者的加入!
多目标跟踪和分割 (MOTS) 需要将视频中给定的类别的物体进行检测、分类、跟踪和像素级分割。在其重要的应用场景自动驾驶中,复杂的路况、市区内密集且相似的车辆和行人、以及对低功耗低延时的预测需求又给这一任务带来了新的挑战。
本研究提出了一种简单高效地利用视频时序信息的方法PCAN,通过对目标物体及过去帧的外观特征做高斯混合建模,得到数量较少且低秩的representative mixture prototypes, 实现了对历史信息的压缩。这一操作在降低注意力运算复杂度和内存需求的同时, 也提高了视频物体分割的质量和追踪的稳定性。
本期AI TIME PhD直播间,我们邀请到香港科技大学计算机工程系三年级博士生——柯磊,为我们带来报告分享《自动驾驶场景下的多目标追踪与实例分割》。
柯磊:
香港科技大学计算机工程系三年级博士生,导师是Chi-Keung Tang(IEEE Fellow)和Yu-Wing Tai。他目前在苏黎世联邦理工学院计算机视觉实验室(CVL)做访问学者,受Fisher Yu教授和研究员Martin Danelljan的共同指导。他的研究兴趣主要包括视频及图像中的实例分割与目标追踪,希望为机器感知真实世界场景提出更为精确、鲁棒、高效及可泛化的基础算法,并有多篇相关工作以第一作者身份发表于NeurIPS/CVPR/ ICCV/ECCV中。
本文提出了一种在自动驾驶场景下,如何通过高效快速的时序建模从而提升多目标追踪与实例分割性能的方法MOTS——Multiple object tracking and segmentation
多目标跟踪与分割是自动驾驶和视频分析等许多实际应用中的重要问题,该任务需要将给定视频中的所有物体进行检测、分类、跟踪以及像素级别的分割。
在自动驾驶的场景中,复杂的路况、市区内密集且行为相似的行人以及对低功耗、低延迟的预测需求都给这一任务带来了新的挑战。由于引入了大规模数据集BDD100K作为深度学习模型训练和测试的基准,这也给MOTS的研究提供了助力。
MOTS的大多数online方法,主要遵循基于检测的跟踪范式,即Tracking by Detection。这一范式首先在单张图片中检测和分割对象,然后是帧之间的关联尽管这些方法已取得较好的结果,但是在时序建模上仅限于物体的关联阶段,并且还是在相邻两帧之间。
另一方面,时间维度包含着丰富的场景信息,它包含着同一物体在不同时间和角度下的多视图。利用这些多视图,我们可以有效提