ACM MM 2020视频目标检测挑战赛冠军DeepBlueAI团队技术分享

最新推荐文章于 2023-04-01 22:37:41 发布

PaperWeekly

最新推荐文章于 2023-04-01 22:37:41 发布

阅读量928

点赞数

文章标签：计算机视觉机器学习人工智能深度学习编程语言

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/109126935

版权

深兰科技的DeepBlueAI团队在ACM MM 2020视频目标检测挑战赛中夺冠。他们采用Cascade R-CNN为基础的检测器，结合FPN、Guided Anchoring和可变性卷积提升性能，通过深度度量学习解决遮挡和再识别问题，并设计了多目标跟踪算法完成轨迹生成。该解决方案针对视频中的目标检测和轨迹生成提出了创新方法。

摘要由CSDN通过智能技术生成

©PaperWeekly 原创 · 作者｜罗志鹏

单位｜深兰北京AI研发中心

研究方向｜物体检测

ACM MM（ACM International Conference on Multimedia, 国际多媒体会议）是 ACM 多媒体领域的顶级会议，涵盖多个新兴领域，致力于推动多媒体的研究和应用，包括但不限于图像，文本，音频，语音，音乐，传感器和社交数据。

自 1993 年首次召开以来，ACM MM 每年召开一次，ACM MM 2020 会议于 10 月 12 日至 16 日在美国西雅图举办。来自深兰科技北京 AI 研发中心的 DeepBlueAI 团队斩获了视频目标检测赛道的冠军，我们可以通过这篇文章来了解一下 DeepBlueAI 团队的解决方案。

赛题介绍

尽管计算机视觉的最新进展有效地提高了多媒体系统的性能，但仍然不能明确回答一个核心问题：机器是否理解视频中发生的事情，分析结果是否可以被人类用户解释？为了推动上述问题的研究，新加坡国立大学推出 VidOR 数据集。

该数据集包含 10,000 个从 YFCC100M [2] 数据集中筛选的视频（98.6小时），数据集包含 80 个类别的目标（例如，成人，狗，玩具）和 50 个类别的关系（例如，旁边，观看，保持）标注。同时举办 Video Relation Understanding [1] 竞赛，本次竞赛同时是 ACM Multimedia 2020 Grand Challenge 中的竞赛任务。

视频目标检测（Video Relation Understanding: Video Object Detection）作为基于 VidOR 数据集的竞赛任务。要求参与者开发鲁棒的目标检测器，该检测器需要不仅可以在每个视频帧中使用检测框定位目标，还需要将指示同一目标实体的检测框链接到轨迹中。

这将帮助机器在视频级别理解目标实体的身份和动态，还可以使需要细粒度视频理解的许多应用程序受益。