论文精讲 | 基于昇思MindSpore片段级异常注意力的弱监督视频异常检测

本文链接：https://blog.csdn.net/Kenji_Shinji/article/details/136070561

本文介绍了一种在弱监督条件下改进视频异常检测的方法，利用昇思MindSpore框架，通过片段级异常注意力机制来处理缺乏逐帧标签的数据。实验结果表明，这种方法在UCF-Crime和XD-Violence数据集上表现出色，提高了鲁棒性和异常检测准确性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文标题

Weakly-Supervised Video Anomaly Detection with Snippet Anomalous Attention

论文来源

IEEE Transactions on Circuits and Systems for Video Technology

论文链接

https://arxiv.org/abs/2309.16309

代码链接

https://github.com/Daniel00008/WS-VAD-mindspore

昇思MindSpore作为开源的AI框架，为产学研和开发人员带来端边云全场景协同、极简开发、极致性能、安全可信的体验，支持超大规模AI预训练，自2020年3月28日开源来已超过657W+的下载量。昇思MindSpore已支持上千篇AI顶会论文，走入290+高校进行教学，通过HMS在5000+App上商用，拥有数量众多的开发者，在AI计算中心、智能制造、金融、云、无线、数通、能源、消费者1+8+N、智能汽车等端边云车全场景广泛应用，是Gitee指数最高的开源软件。欢迎大家参与开源贡献、套件、模型众智、行业创新与应用、算法创新、学术合作、AI书籍合作等，贡献您在云侧、端侧、边侧以及安全领域的应用案例。

在科技界、学术界和工业界对昇思MindSpore的广泛支持下，基于昇思MindSpore的AI论文2023年在所有AI框架中占比7%，连续两年进入全球第二，感谢CAAI和各位高校老师支持，我们一起继续努力做好AI科研创新。昇思MindSpore社区支持顶级会议论文研究，持续构建原创AI成果。我会不定期挑选一些优秀的论文来推送和解读，希望更多的产学研专家跟昇思MindSpore合作，一起推动原创AI研究，昇思MindSpore社区会持续支撑好AI创新和AI应用，本文是昇思MindSpore AI顶会论文系列第28篇，我选择了来自天津大学智能与计算学部的韩亚洪老师团队的一篇论文解读，感谢各位专家教授同学的投稿。

研究背景

随着大规模视频数据的产生和存储能力的提升，视频异常检测成为了解决实际问题的关键技术。视频异常检测是指在视频流或视频序列中检测和识别出与正常行为或场景不符的异常事件或行为。它在安全监控、工业制造、交通管理等领域具有广泛的应用价值。比如在城市安全监控系统中，可以帮助实时识别和报警异常事件，如入侵、盗窃或暴力行为，以提高公共安全和保护财产。

另外在交通管理系统中，视频异常检测也可用于实时监测交通流量、检测交通事故、识别违规行为等，改善交通安全。但是现有的视频异常检测面临需要大规模人工注释的挑战，为此研究者们提出了各种解决方案，比如无监督、弱监督、多模态融合等，其中弱监督异常检测方法备受关注。该方法仅仅利用视频级别的异常(1)-正常(0)标签进行训练，降低了人力成本。同时相较于无监督的解决方法，异常检测的性能有了大范围的提升。

团队介绍

论文第一作者范一丹目前就读于天津大学未来技术学院（2021-至今），硕士研究生，主要研究方向包括视频异常检测、领域自适应等，导师为韩亚洪教授。

论文通讯作者韩亚洪是天津大学智能与计算学部教授，博士生导师，研究方向为多媒体分析、计算机视觉和机器学习。2012年3月博士毕业于浙江大学计算机学院，博士毕业被天津大学直接聘为副教授，2016年在天津大学破格晋升正教授，2021年被聘为天津大学“英才教授”（长聘系列）；曾获得计算机学会（CCF）优秀博士学位论文奖，入选教育部新世纪优秀人才支持计划，加州大学伯克利分校统计系访问学者；获得ACM Multimedia 2017“最佳论文提名奖”和“技术竞赛奖”、ICCV 2017“视频问答LSMDC Challenge”第一名；指导博士生获得2021年度“中国图象图形学学会优秀博士学位论文奖”；近年来，在跨媒体内容理解与推理、对抗视觉和对抗鲁棒性等领域发表TPAMI等权威期刊和NeurIPS等顶级学术会议论文60余篇，承担国家重点研发、自然基金重点、科技创新特区和基础加强等项目课题的研究任务。

论文简介

本文主要针对基于预训练模型的下游视频异常检测任务在实际应用场景中存在的有标签数据获取困难的问题，着眼于改进弱标签场景下视频异常检测方法。以往的方法只关注辨别性信息，导致包含丰富上下文信息的片段级嵌入在特征选择过程中被忽略，而采用自监督学习的方法中，伪标签很容易受到噪声的干扰。为此，本文从视频的片段级编码特征出发，提出一种适用于弱监督异常检测的异常注意力机制。通过学习视频片段中不同区域，包括难以检测的区域，协助注意力的优化以改善算法。基于昇思MindSpore框架，完成了弱监督场景下的视频异常检测任务的训练与验证，相比其他深度学习框架，昇思MindSpore具有更短的模型训练等优势。

本论文提出了一种新的弱监督视频异常检测方法。考虑到视频异常检测实际应用存在的弱监督场景下，训练阶段缺乏逐帧标签，只能依靠粗略的视频级标签作为监督。现有的方法多尝试学习具有辨别性的特征(如图1-a/b)，或采用自训练策略(如图1-c)生成视频片段级伪标签来实现视频的学习。然而，这两种方法都存在一定的局限性。前者往往忽视了非辨别性的其他片段级别的信息特征，而后者容易受到标签噪声的干扰。

图1 现有方法（a,b,c）与本文方法（d）的对比差异

本文提出关注视频片段级特征以及异常的完整性，并利用片段级异常注意力来实现异常检测，如图2所示。通过这种操作不仅可以抑制辨别性片段对最终结果造成的过大影响，关注弱异常信息，同时也无需生成伪标签，避免了噪声干扰。具体来说，提出的方法由三个主要模块组成：时间嵌入单元、异常注意力生成单元和多分支监督模块。时间嵌入单元对特征进行编码，聚合上下文信息，异常注意力单元专注于生成片段级别的异常注意力，最后多分支监督模块借助异常注意力，挖掘视频中的弱异常信息，并结合本文提出的优化训练策略，最终实现了异常完整性的建模和行为的有效检测。在这个过程中，异常注意力借助预测的异常分数不断优化，并正向支持异常分数的高质量回归。

图2 本文方法的模型结构图

实验结果

本文分别在XD-Violence和UCF-Crime两个视频异常检测基准数据集上进行了实验，采用AUC及AP的评估准则评估了本文方法的有效性。与最先进的视频异常检测方法进行了对比，并进一步对实验结果进行了分析研究。

表1 本文方法在UCF-Crime数据集上的实验对比结果

表2 本文方法在XD-Violence数据集上的实验对比结果

实验结果显示，与先进的弱监督视频异常检测方法相比，本文提出的基于片段级异常注意力的方法获得了较大的性能提升。（表中†表示用相关作者开源的代码进行了重新训练）。此外，本文还进行了广泛的实验分析研究，证明了片段级异常注意力的有效性。首先相较于其他方法，本文的方法面对对象改变和场景变换展现出更大的鲁棒性。其次当异常在整个视频中占很大比例时，本文的方法可以有效地整合异常周围的局部信息，同时抑制判别片段的影响，进而产生相对平滑、波动较小的异常得分曲线。最后由于片段级别的关注，本文的方法提高了定位异常的准确性，特别是当视频中的异常片段很短或异常分布分散的情形下。

总结与展望

本文旨在解决视频异常检测任务实际应用场景中有标签数据获取困难的问题，提出了一种考虑片段级编码特征的方法。具体来说，在对全局和局部层面的原始特征进行建模后，引入了一种注意力机制。然后，结合片段异常注意力，提出了一种多分支监督模型，不仅利用了一般的预测分数，还利用了基于注意力的预测结果。此外，提出的方法抑制了最具鉴别力的片段，因此可以学习视频的难以理解的部分，然后探索异常的完整性。最后，为了更好地生成异常注意，给出了一个包含规范项和引导项的优化过程。本文方法为解决实际的视频监控应用中的弱监督异常检测场景提供了一种解决方案，为后续工作提供了新思路，将有助于视频异常检测方法在实际场景的应用。

在使用昇思MindSpore过程中，我们也感受到了该框架自动并行加速的优点，有效地提高了模型训练和推理的效率，减少了开发的复杂性。不过框架生态系统和社区支持相比其他框架还略微欠缺，希望众多昇思MindSpore开发者能够更近一步提升文档和教程的完备性，使得新手能够快速上手和理解框架的核心概念。也希望更多的开发者能够加入昇思MindSpore社区，分享自己的经验和技巧，帮助其他开发者解决问题，提出改进建议或提交代码贡献，让昇思MindSpore变得更加强大和完善，为昇思MindSpore构建一个更加丰富和多样化的生态系统。

往期回顾

论文精讲 | 基于昇思MindSpore的动态加权对抗学习DWAL提升模型性能

论文精讲 | 基于昇思MindSpore的动作频率自适应视频时序动作提名生成研究，解决精确定位未修剪视频中的动作问题

论文精讲 | 基于昇思MindSpore无锚框时序动作定位研究解决未剪辑视频的识别和定位问题

论文精讲 | 基于昇思MindSpore的行人重识别和步态识别探究解决行人的换装问题