DAPs: Deep Action Proposals for Action Understanding

最新推荐文章于 2024-09-28 21:53:47 发布

shuju_

最新推荐文章于 2024-09-28 21:53:47 发布

阅读量145

点赞数 7

分类专栏： Dence Video Captioning 文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/shuju_/article/details/141941868

版权

Dence Video Captioning 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

用于从未剪辑的长视中生成temporal action proposals，关于任务temporal action proposals，快速定位未修剪视频中可能包含感兴趣的人类活动的时间块的任务。

1.介绍

受到Object proposals在图像对象理解方面发展的启发，提出该方法。DAPs方法能够在一次视频扫描中生成多个不同长度的时间段提议，而不需要多次扫描或使用固定大小的滑动窗口，这大大提高了效率。

2.方法实现

视觉编码器使用一个预训练的C3D网络提取视频帧的时空特征（16fps）；序列编码器利用LSTM处理从视觉编码器获取的特征序列，编码为一组判别性隐藏状态序列；定位模块根据序列编码器的最后一个隐藏状态，预测k个action proposals的时间位置，proposal的时间段可以是不同长度，通过一次扫描完成，这种方法使得我们的模型能够在一次视频扫描中输出不同长度的片段，而不是传统的通过多个窗口尺寸进行重叠扫描；预测模块为每个proposal时间段分配一个置信度，实际上，ci是对序列编码器最后一个隐藏状态的线性组合应用sigmoid函数的输出。

在推理阶段，为了在一个长视频序列中生成多个可能包含动作的候选片段，我们在视频上滑动我们的DAPs网络，每次扫描一个长度为T帧的视频流，并在其中放置K个不同长度的片段及其各自的动作置信度。k个锚定片段是通过对数据的标注统计得到的，加速优化过程，解决分配问题，在学习阶段，DAPs网络将视频流v（长度为T帧）映射到K个片段及其各自的动作置信度上，目标是学习一个适当的函数f，使得：1）模型生成的片段与动作的位置匹配；2）匹配片段的置信度高于其他片段。

这些锚定片段的获取是通过对标注数据进行k-means聚类来完成的。k-means是一种常见的聚类算法，能够将数据分为K个聚类中心。在这个方法中，k-means被用于将真实的动作标注进行聚类，从而在整个视频流中产生一个多样化的锚定片段集合。每个锚定片段的位置和持续时间都是通过聚类得到的，这确保了锚定片段覆盖了视频流中不同时间和位置的可能性。