©PaperWeekly 原创 · 作者|罗志鹏
单位|深兰北京AI研发中心
研究方向|物体检测
ACM MM(ACM International Conference on Multimedia, 国际多媒体会议)是 ACM 多媒体领域的顶级会议,涵盖多个新兴领域,致力于推动多媒体的研究和应用,包括但不限于图像,文本,音频,语音,音乐,传感器和社交数据。
自 1993 年首次召开以来,ACM MM 每年召开一次,ACM MM 2020 会议于 10 月 12 日至 16 日在美国西雅图举办。来自深兰科技北京 AI 研发中心的 DeepBlueAI 团队斩获了视频目标检测赛道的冠军,我们可以通过这篇文章来了解一下 DeepBlueAI 团队的解决方案。
赛题介绍
尽管计算机视觉的最新进展有效地提高了多媒体系统的性能,但仍然不能明确回答一个核心问题:机器是否理解视频中发生的事情,分析结果是否可以被人类用户解释?为了推动上述问题的研究,新加坡国立大学推出 VidOR 数据集。
该数据集包含 10,000 个从 YFCC100M [2] 数据集中筛选的视频(98.6小时),数据集包含 80 个类别的目标(例如,成人,狗,玩具)和 50 个类别的关系(例如,旁边,观看,保持)标注。同时举办 Video Relation Understanding [1] 竞赛,本次竞赛同时是 ACM Multimedia 2020 Grand Challenge 中的竞赛任务。
视频目标检测(Video Relation Understanding: Video Object Detection)作为基于 VidOR 数据集的竞赛任务。要求参与者开发鲁棒的目标检测器,该检测器需要不仅可以在每个视频帧中使用检测框定位目标,还需要将指示同一目标实体的检测框链接到轨迹中。
这将帮助机器在视频级别理解目标实体的身份和动态,还可以使需要细粒度视频理解的许多应用程序受益。
评测指标
在评测指标中包含目标检测与轨迹生成两部分。在检测部分,主办方采用