论文精讲 | 基于昇思MindSpore无锚框时序动作定位研究解决未剪辑视频的识别和定位问题

最新推荐文章于 2024-04-12 10:32:27 发布

昇思MindSpore

最新推荐文章于 2024-04-12 10:32:27 发布

阅读量453

点赞数 9

文章标签：音视频

本文链接：https://blog.csdn.net/Kenji_Shinji/article/details/135147785

版权

论文标题

Anchor-free Temporal Action Localization via Progressive Boundary-aware Boosting

论文来源

IPM 2023

论文链接

https://www.sciencedirect.com/science/article/abs/pii/S0306457322002424

代码链接

https://gitee.com/chunjie-zhang/anchor-free

昇思MindSpore作为开源的AI框架，为产学研和开发人员带来端边云全场景协同、极简开发、极致性能、安全可信的体验，支持超大规模AI预训练，自2020年3月28日开源来已超过6百万的下载量。昇思MindSpore已支持数百篇AI顶会论文，走入Top100+高校教学，通过HMS在5000+App上商用，拥有数量众多的开发者，在AI计算中心、智能制造、金融、云、无线、数通、能源、消费者1+8+N、智能汽车等端边云车全场景广泛应用，是Gitee指数最高的开源软件。欢迎大家参与开源贡献、套件、模型众智、行业创新与应用、算法创新、学术合作、AI书籍合作等，贡献您在云侧、端侧、边侧以及安全领域的应用案例。

在科技界、学术界和工业界对昇思MindSpore的广泛支持下，基于昇思MindSpore的AI论文2023年在所有AI框架中占比7%，连续两年进入全球第二，感谢CAAI和各位高校老师支持，我们一起继续努力做好AI科研创新。昇思MindSpore社区支持顶级会议论文研究，持续构建原创AI成果。我会不定期挑选一些优秀的论文来推送和解读，希望更多的产学研专家跟昇思MindSpore合作，一起推动原创AI研究，昇思MindSpore社区会持续支撑好AI创新和AI应用，本文是MindSpore AI顶会论文系列第24篇，我选择了来自北京交通大学计算机与信息技术学院的张淳杰老师团队的一篇论文解读，感谢各位专家教授同学的投稿。

本文主要聚焦于时序动作定位相关问题，着眼于改进无锚框时序动作定位方法。这类方法因不需要预设锚框、计算成本低且没有复杂的超参数而受到越来越多的关注。然而，大多数现有的无锚框时序动作定位方法仍然存在动作边界不准确的问题。为此，我们提出了一种新颖的渐进式边界感知时序动作定位网络，通过渐进式边界细致化预测和更好的时间上下文信息聚合来改善算法。我们的算法可以按照昇思MindSpore官方文档案例以及我们提供的代码实现。

研究背景

随着摄影成本的降低，在许多情境中，信息通常以视频数据的形式存储。不同于文本、图像和音频，视频数据同时包含时空信息，使其更为复杂，尤其是在处理现实世界中的长时间未剪辑视频时。为了有效分析这些未剪辑视频，通常需要聚焦于特定主题，如人类活动、动物行为或物体运动。

深度学习算法能够帮助计算机从未剪辑视频中剪裁和识别与指定主题相关的视频片段，从而高效地处理大量现实世界的视频数据。其中，人类活动是最重要和关键的主题之一，而包含人类行为的视频也是最常见和容易获取的。因此，大多数与未剪辑视频理解相关的研究都集中在人类行为方面。时间动作定位（TAL）是一项重要且基础的视频理解任务，其目标是在未剪辑的视频中准确定位和分类可能包含人类动作实例的每个视频剪辑。TAL算法可应用于各种情境，包括监控、商业推荐、自动驾驶等。

近年来，TAL任务引起了越来越多的关注。然而，大多数现有的无锚框TAL模型仍然存在动作边界预测不准确的问题，这一问题主要有以下两个原因：首先，由于生成的提议数量相对较少，无锚框TAL方法在动作边界预测方面存在固有的不足。例如，常见的AFSD模型采用了粗粒度到细粒度的框架，有效提高了边界预测的准确性，但其细化预测策略相对简单，没有充分利用边界邻域信息，导致在边界上下文复杂的情况下边界预测模糊不清。

此外，AFSD模型仅进行一次动作建议的细化，这也限制了边界预测的改进。其次，无锚框TAL方法直接回归动作边界，这依赖于模型捕获时间上下文信息的能力。然而，现有的无锚框TAL模型在时间建模方面的能力仍然不够令人满意。因此，需要从边界细化和时序建模两个方面入手，对无锚框时序动作定位方法进行改进。

团队介绍

论文第一作者唐业鹏是北京交通大学计算机与信息技术学院23届博士，研究方向为计算机视觉、视频理解、时序动作定位等。

北京交通大学数字媒体信息处理研究中心（Mepro ）肇始于1998年，2012年入选教育部“创新团队发展计划”。该中心现有教师14人，博、硕士研究生100余人。该中心的研究领域为数字媒体信息处理，研究方向主要包括图像\视频编码与传输、数字水印与数字取证、媒体内容分析与理解等。2022 年，实验室共发表高水平论文共 61 篇，其中包括本领域国际顶级汇刊 IEEE Trans.论文 38 篇，国际顶级会议如 NeurIPS、CVPR、ECCV、ACM MM 等论文 23 篇。

论文简介

本文介绍了一项关于视频的无锚框时序动作定位技术的研究。该技术在视频分析、智能监控分析等领域扮演着至关重要的角色，其目标是从未剪辑的长视频中对人类的行为进行识别和定位。然而，现有的无锚框时序动作定位模型仍然存在动作边界预测不准确的问题。一方面，由于只生成少量提案，无锚框方法在与密集锚框方法的比较中天然劣势明显。

同时，现有方法未充分利用边界邻域信息来进行有层次的细致化边界预测。另一方面，无锚框方法直接回归动作边界，这需要模型捕获时间上下文信息的能力。基于这些分析，我们提出了一种新颖的无锚框时序动作定位框架——渐进式边界感知提升网络。

具体而言，该网络主要包括三个模块：时间上下文感知模块、实例级边界感知模块和帧级渐进边界感知模块。时间上下文感知模块的作用是聚合时间上下文信息，为实例级边界感知模块和帧级渐进边界感知模块提供粗粒度和细粒度的聚合特征。实例级边界感知模块的任务是定位动作实例的大致时间位置，主要通过生成多尺度特征金字塔网络来预测多尺度特征中每个位置上的动作边界和类别。帧级渐进边界感知模块则用于优化初步的边界预测。与实例边界感知模块不同的是，帧级渐进边界感知模块单独对每一个动作实例的边界进行帧级别的预测，并使用层次化的监管信息进行训练。在这个过程中，动作边界逐步在帧级别回归，以获得高质量的动作边界预测。我们的方法在多个时序动作定位数据集上取得了先进的性能。

模型结构图

CCPG数据集及子数据集

实验结果

我们在常用的视频时序动作定位数据集THUOMO14、ActivityNet-1.3和HACS上，与先进的时序动作定位算法进行了对比，并进一步对实验结果进行了分析研究。

实验结果显示，我们的无锚时序动作定位算法明显优于其他无锚时序动作定位方法，并且在性能方面也能够与密集锚框方法相媲美。在过去，许多无锚框方法采用了由粗到细的策略，以优化未剪辑视频中的动作实例边界。然而，它们通常只进行一次细化预测，这使得模型的精准预测实现困难。为解决这个问题，我们采用了渐进式提升策略，通过逐步细化结果并在由弱到强的监督下进行模型预测，使其逐渐逼近真实边界。此外，我们还利用时间上下文感知模块更好地建模了时序上下文之间的关系。因此，我们的方法能够获得更为准确的预测结果。

总结与展望

本文介绍了一种名为"渐进式边界感知提升网络"的方法，旨在高质量地完成未剪辑视频中人类动作的识别和定位任务。该方法的主要焦点是解决无锚方法在动作边界预测方面的不准确性问题。为此，我们引入了实例级边界感知模块和帧级渐进边界感知模块，以提升动作边界的预测质量。此外，我们还设计了一个时间上下文感知模块，用于捕获视频中的时序上下文信息，有助于模型取得更出色的结果。经过充分的实验证明了我们方法的有效性。这篇文章从时序建模和逐步边界细致化预测两个方面改进了算法，为后续工作提供了新思路。这些创新将有助于无锚时序行为定位方法在实际场景的应用。

往期回顾

论文精讲 | 基于昇思MindSpore的行人重识别和步态识别探究解决行人的换装问题

论文精讲 | 基于昇思MindSpore打造首个深度学习开源视频压缩算法库OpenDMC,支持跨平台和多种评价指标

论文精讲 | 基于昇思MindSpore的RGB-D显著性目标检测网络PICR-Net，准确高质量检测实物

论文精讲 | 基于昇思MindSpore实现的历轮演化方法，让图像分类更精准

昇思MindSpore

关注

9
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
论文精讲 | 基于昇思MindSpore无锚框时序动作定位研究解决未剪辑视频的识别和定位问题

与实例边界感知模块不同的是，帧级渐进边界感知模块单独对每一个动作实例的边界进行帧级别的预测，并使用层次化的监管信息进行训练。然而，大多数现有的无锚框TAL模型仍然存在动作边界预测不准确的问题，这一问题主要有以下两个原因：首先，由于生成的提议数量相对较少，无锚框TAL方法在动作边界预测方面存在固有的不足。例如，常见的AFSD模型采用了粗粒度到细粒度的框架，有效提高了边界预测的准确性，但其细化预测策略相对简单，没有充分利用边界邻域信息，导致在边界上下文复杂的情况下边界预测模糊不清。CCPG数据集及子数据集。
复制链接

扫一扫