ACM MM 2020视频目标检测挑战赛冠军DeepBlueAI团队技术分享

深兰科技的DeepBlueAI团队在ACM MM 2020视频目标检测挑战赛中夺冠。他们采用Cascade R-CNN为基础的检测器,结合FPN、Guided Anchoring和可变性卷积提升性能,通过深度度量学习解决遮挡和再识别问题,并设计了多目标跟踪算法完成轨迹生成。该解决方案针对视频中的目标检测和轨迹生成提出了创新方法。
摘要由CSDN通过智能技术生成

©PaperWeekly 原创 · 作者|罗志鹏

单位|深兰北京AI研发中心

研究方向|物体检测

ACM MM(ACM International Conference on Multimedia, 国际多媒体会议)是 ACM 多媒体领域的顶级会议,涵盖多个新兴领域,致力于推动多媒体的研究和应用,包括但不限于图像,文本,音频,语音,音乐,传感器和社交数据。

自 1993 年首次召开以来,ACM MM 每年召开一次,ACM MM 2020 会议于 10 月 12 日至 16 日在美国西雅图举办。来自深兰科技北京 AI 研发中心的 DeepBlueAI  团队斩获了视频目标检测赛道的冠军,我们可以通过这篇文章来了解一下 DeepBlueAI 团队的解决方案。

 

 

赛题介绍

尽管计算机视觉的最新进展有效地提高了多媒体系统的性能,但仍然不能明确回答一个核心问题:机器是否理解视频中发生的事情,分析结果是否可以被人类用户解释?为了推动上述问题的研究,新加坡国立大学推出 VidOR 数据集。

该数据集包含 10,000 个从 YFCC100M [2] 数据集中筛选的视频(98.6小时),数据集包含 80 个类别的目标(例如,成人,狗,玩具)和 50 个类别的关系(例如,旁边,观看,保持)标注。同时举办 Video Relation Understanding [1] 竞赛,本次竞赛同时是 ACM Multimedia 2020 Grand Challenge 中的竞赛任务。

视频目标检测(Video Relation Understanding: Video Object Detection)作为基于 VidOR 数据集的竞赛任务。要求参与者开发鲁棒的目标检测器,该检测器需要不仅可以在每个视频帧中使用检测框定位目标,还需要将指示同一目标实体的检测框链接到轨迹中。

这将帮助机器在视频级别理解目标实体的身份和动态,还可以使需要细粒度视频理解的许多应用程序受益。

评测指标

在评测指标中包含目标检测与轨迹生成两部分。在检测部分,主办方采用

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值