video analysis -- 弱监督的动作检测-UntrimmedNets

最新推荐文章于 2023-03-02 20:21:17 发布

X.mw

最新推荐文章于 2023-03-02 20:21:17 发布

阅读量1.2k

点赞数

分类专栏：视频理解文章标签：计算机视觉视频处理神经网络深度学习

本文链接：https://blog.csdn.net/X_m_w/article/details/105523540

版权

本文详细介绍了弱监督视频动作检测的方法UntrimmedNets，通过clip sampling生成提案，使用特征提取、分类和选择模块进行动作识别和定位。UntrimmedNets包含两部分：均匀和镜头采样策略，以及包括特征提取、分类和选择模块的网络架构。在训练过程中，采用强监督的交叉熵损失进行反向传播。实验表明，UntrimmedNets能有效识别和检测视频中的动作。

摘要由CSDN通过智能技术生成

在这里插入图片描述
首先说一下什么是基于弱监督的动作检测，下图是一个视频的标注信息，包含动作类别和每个动作发生的时间信息。强监督就是利用所有信息对视频进行动作识别和定位；而弱监督是单单利用动作类别的信息进行训练，不使用动作时间段的标注。
视频动作标注信息
这篇文章是一篇很经典的基于弱监督动作检测的论文，现在的很多方法也是由此发展而来的。简单来说的，作者作者提出了两个模型：分类模型和选择模型来分别实现动作分类和动作定位。这俩模型都是简单地前馈网络，虽然模型简单，但是整体的思路却一直被人沿用。 awesome

这里作者将视频先进行剪辑为clip proposals(相当于把视频分段)。

1 介绍

UntrimmedNet直接将未修剪作为输入，首先生成clip proposal（相当于将视频分段，分段方法有均匀采样和基于镜头采样）；接着将clip proposal输入UntrimmedNet提取特征；然后将特征输入到分类模型（对每一个clip proposal预测分类分数）和选择模型（对clip proposals选择或者分等级）；最后通过将分类和选择模型的结果融合生成视频级别的预测。

2 方法

首先介绍生成clip proposals，接着介绍UntrimmedNet架构，最后以端到端的方式调整模型参数。

2.1 Clip sampling

给定一个未裁剪共 $T$ 帧的视频 $V$ ，生成一系列clip proposals $C={\{c_i \}}^N_{i=1}$ ,这里N是proposals的数量， $c_i=(b_i,e_i)$ 表示第 $i$ 个proposal $c_i$ 的开始和结束定位。文章介绍了两种采样方法：均匀采样和基于镜头的采样

Uniform sampling. 假设一个视频中动作实例所占时间比例很少，将一个长视频分为 $N$ 个等长的clips，即
$b_i=\frac{i-1}{N}T+1 , ,e_i=\frac{i}{N}T$
但是这种采样方法忽略了动作的连续和一致性，容易生成不精确的proposals。
Shot-based sampling 这种采样方法希望每一个动作实例专注于一个镜头内一致的运动。

镜头改变检测方法：对每一帧提取HOG特征并且计算相邻帧间的HOG特征差异；然后，用这个差值的绝对值来测量视觉内容的变化，如果大于阈值，就代表镜头的变化。

之后，对于每个镜头按顺序采样K帧固定长度的镜头clips（在训练时k=300）。对于每个镜头可以表示为 $s_i=(s_i^b,s_i^e)$ ,分别表示开始和结束动作定位，从这个镜头生成的proposals可以表示为：
$C(s_i)=\{(s_i^b+(i-1)\times K,s_i^b+i\times K)\}_{i:s_i^b+i*K<s_i^e}$

最低0.47元/天解锁文章

X.mw

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
video analysis -- 弱监督的动作检测-UntrimmedNets

首先说一下什么是基于弱监督的动作检测，下图是一个视频的标注信息，包含动作类别和每个动作发生的时间信息。强监督就是利用所有信息对视频进行动作识别和定位；而弱监督是单单利用动作类别的信息进行训练，不使用动作时间段的标注。这篇文章是一篇很经典的基于弱监督动作检测的论文，现在的很多方法也是由此发展而来的。简单来说的，作者作者提出了两个模型：分类模型和选择模型来分别实现动作分类和动作定位。这俩模型都是...
复制链接

扫一扫

专栏目录