video analysis -- 弱监督的动作检测-UntrimmedNets

在这里插入图片描述
首先说一下什么是基于弱监督的动作检测,下图是一个视频的标注信息,包含动作类别和每个动作发生的时间信息。强监督就是利用所有信息对视频进行动作识别和定位;而弱监督是单单利用动作类别的信息进行训练,不使用动作时间段的标注。
视频动作标注信息
这篇文章是一篇很经典的基于弱监督动作检测的论文,现在的很多方法也是由此发展而来的。简单来说的,作者作者提出了两个模型:分类模型和选择模型来分别实现动作分类和动作定位。这俩模型都是简单地前馈网络,虽然模型简单,但是整体的思路却一直被人沿用。 awesome

这里作者将视频先进行剪辑为clip proposals(相当于把视频分段)。

1 介绍

UntrimmedNet直接将未修剪作为输入,首先生成clip proposal(相当于将视频分段,分段方法有均匀采样和基于镜头采样);接着将clip proposal输入UntrimmedNet提取特征;然后将特征输入到分类模型(对每一个clip proposal预测分类分数)和选择模型(对clip proposals选择或者分等级);最后通过将分类和选择模型的结果融合生成视频级别的预测。

2 方法

首先介绍生成clip proposals,接着介绍UntrimmedNet架构,最后以端到端的方式调整模型参数。

2.1 Clip sampling

给定一个未裁剪共 T T T帧的视频 V V V,生成一系列clip proposals C = { c i } i = 1 N C={\{c_i \}}^N_{i=1} C={ ci}i=1N,这里N是proposals的数量, c i = ( b i , e i ) c_i=(b_i,e_i) ci=(bi,ei)表示第 i i i个proposal c i c_i ci的开始和结束定位。文章介绍了两种采样方法:均匀采样和基于镜头的采样

Uniform sampling. 假设一个视频中动作实例所占时间比例很少,将一个长视频分为 N N N个等长的clips,即
b i = i − 1 N T + 1 , , e i = i N T b_i=\frac{i-1}{N}T+1 , ,e_i=\frac{i}{N}T bi=Ni1T+1,,ei=NiT
但是这种采样方法忽略了动作的连续和一致性,容易生成不精确的proposals。
Shot-based sampling 这种采样方法希望每一个动作实例专注于一个镜头内一致的运动。

镜头改变检测方法:对每一帧提取HOG特征并且计算相邻帧间的HOG特征差异;然后,用这个差值的绝对值来测量视觉内容的变化,如果大于阈值,就代表镜头的变化。

之后,对于每个镜头按顺序采样K帧固定长度的镜头clips(在训练时k=300)。对于每个镜头可以表示为 s i = ( s i b , s i e ) s_i=(s_i^b,s_i^e) si=(sib,sie),分别表示开始和结束动作定位,从这个镜头生成的proposals可以表示为:
C ( s i ) = { ( s i b + ( i − 1 ) × K , s i b + i × K ) } i : s i b + i ∗ K < s i e C(s_i)=\{(s_i^b+(i-1)\times K,s_i^b+i\times K)\}_{i:s_i^b+i*K<s_i^e} C(si)={ (sib+(i1)×K,

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值