视频理解文献总结

meme52000

已于 2022-07-13 17:18:20 修改

阅读量1k

点赞数

分类专栏：视频理解文章标签：音视频深度学习人工智能

于 2022-06-03 22:04:01 首次发布

本文链接：https://blog.csdn.net/meme52000/article/details/125116444

版权

这篇博客总结了三篇关于视频理解的论文，涉及弱监督时空异常检测、视频情感分析和弱监督密集视频字幕生成。在异常检测中，提出了一种多实例学习框架，利用量子概率神经模型处理多模态情感分析，并通过知识蒸馏和交叉模态匹配解决弱监督密集视频字幕任务。

摘要由CSDN通过智能技术生成

1_Weakly-Supervised Spatio-Temporal Anomaly Detection in Surveillance Video_IJCAJ2021

监控视频中的弱监督时空异常检测

模型的输入：视频片段（管级示例和视频级示例）

模型的输出：示例的异常得分（根据异常得分将异常示例与正常示例分开）

1、研究对象或者研究任务是什么？

监控视频中的弱监督时空异常检测(WSSTAD)，WSSTAD的目标是定位一个时空管(即一个连续时间的包围框序列)，它包围了一个未修剪视频中的异常事件的轨迹。如图1所实的实例(碰撞中的两辆车)。

2、解决该任务的什么问题？

1)该问题的弱监督本质是，在训练过程中，时间段级标签和空间区域级标签都不可用。

2)该定位任务跨越时空维度，空间细节和时间相关性可作为不同粒度级别的线索。如何利用这些多粒度的信息共同促进模型的训练仍是一个有待研究的问题。

3)一些异常如“道路事故”涉及到物体之间的相互作用，因此自动推断视频中物体之间的潜在关系是一个固有的挑战。

3、如何解决该问题的？

为了解决这一任务，我们将其表述为一个多实例学习问题。我们提取了两种管道级实例建议，并将它们输入到管道分支中，以捕获空间线索。将异常与单个实例区分开来并非易事，因此我们将信息在多个实例之间传播，以便做出更全面的预测。具体来说，每个分支都采用了一个关系建模模块，该模块采用了多头自注意机制来捕捉视频对象之间的关系，从而融合上下文信息和复杂的实体行为关系进行异常推理。由于每个分支有助于捕获不同粒度级别上的异常抽象，我们可以直观地将学习到的概念从一个分支转移到另一个分支。为此，我们提出了一种新的相互引导渐进细化(MGPR)框架，该框架包含了一种循环的双路径相互引导机制，以迭代的方式促进优化过程。我们的实验表明，双路径循环引导协调相互加强两个训练过程，并逐步提高性能。

4、文章的主要贡献。

1)我们提出了一个新的任务WSSTAD来定位一个语义上对应异常事件的时空管道，在训练过程中不依赖任何时空标注。

2)为了解决这一问题，MGPR框架旨在将学习到的抽象知识跨分支进行转移，在整个框架中鼓励相互指导和逐步细化。

3)我们提供了两个数据集，为异常视频提供细粒度的管级注释，作为基准。

4)进行了深入的分析，以证明所提出的框架的有效性超过一些竞争的方法，并讨论了更有助于处理这一任务的关键因素。

5、模型架构

6、数据集（没有公开）

构建了一个新的数据集(标记为ST-UCF-Crime)，用于标注UCF-Crime中异常事件的时空边界框[Sultani等人，2018]，该数据集包含复杂监控场景中不同类别的异常视频。此外，我们贡献了一个新的数据集，即时空道路事故(Spatio-Temporal Road Accident，简称STRA)，包含各种道路事故视频，如摩托车撞到汽车，汽车撞到人等。STRA算法有助于在实际交通事故场景中实现细粒度异常检测，促进智能交通的发展。

2_An Entanglement-driven Fusion Neural Network for Video Sentiment Analysis_IJCAJ2021