CLTA: Contents and Length-based Temporal Attention for Few-shot Action

Motivation

使用3D卷积或者3D+LSTM会导致过拟合,因为用了很少的数据去训练一个复杂的模型。现在的小样本方法大多是基于比较视频描述子的,但是很多方法只注重了空间信息而忽略了时间信息。

作者介绍了三种用于小样本行为识别的方法,第一种通过帧特征的点乘计算帧之间的自注意力从而赋予时间权重,但是没有考虑连续帧,会错失关键帧;第二种使用temporal filter为不同帧赋予不同时间权重,但是从seen action用于unseen action可能会丢失时间信息;第三种之间比较帧之间的相似性,但是会导致很大的计算量。

因此作者提出为每个帧生成continues时间权重,同时对不同的视频调整时间权重。

Proposal

CLTA
首先提取视频的帧级特征,然后使用类似高斯分布的函数为视频生成多个时间注意力(因为一个视频可能有多个关键时期进行预测,所以要有多个时间注意力)。作者设计了两个学习矩阵(mean learning matrix和standard deviation matrix)在帧特征和长度上学习均值和标准差。基于均值和标准差学习时间权重,进而学习时间信息。

Establish Frame-level Correlations via CLTA

在这里插入图片描述
公式(1)类似高斯函数,求得是 a k , t a_{k,t} ak,t表示第t帧的第k个时间权重; W m W^m Wm W s ∈ R K × d W^s∈R^{K×d} WsRK×d是两个可学习矩阵, W m = ( w 1 m , w 2 m , . . . , w K m ) W^m=(w_1^m,w_2^m,...,w_K^m) Wm=(w1m,w2m,...,wKm) W s = ( w 1 s , w 2 s , . . . , w K s ) W^s=(w_1^s,w_2^s,...,w_K^s) Ws=(w1s,w2s,...,wKs),其中d为特征维度,K表示每个视频时间权重的个数。

均值 u k u_k uk指的是 f θ ( x t ) ⋅ w k m f_θ(x_t)·w_k^m fθ(xt)wkm取得最大值的帧的index,标准差 σ k σ_k σk w k m w_k^m wkm和每一个帧特征 f θ ( x t ) f_θ(x_t) fθ(xt)点积的和。最后 u k u_k uk σ k σ_k σk都要通过除以数据集Z中的最大长度进行正则化操作。

在该过程中,CLTA不仅学习了视频的内容还对视频长度进行编码,因此可以为不同的视频生成自定义的时间注意力。最后对求得的 a k , t a_{k,t} ak,t进行正则化,并用于聚合特征级特征。
在这里插入图片描述

Video-level Representation Fusion

通过公式(5)对每个视频可以求得K个视频级特征,每个视频级特征关注视频的一个重要信息,因此需要对这些特征再次进行聚合构成一个视频级描述子进行预测。

有两种预测方法,一种是平等对待每个特征,采用平均法融合,即 V = 1 k Σ k = 1 K v k V=\frac{1}{k}Σ_{k=1}^Kv_k V=k1Σk=1Kvk。另一种方式就是学习一个soft-weight即 V = Σ k = 1 K s k v k V=Σ_{k=1}^Ks_kv_k V=Σk=1Kskvk s k s_k sk表示第k个视频特征的权重。

Make CLTA Differentiable

作者认为公式(2)中的argmax不是可微的,因此作者采用了一个带有缩放参数β的soft-argmax来近似不可微分的argmax操作。
在这里插入图片描述

实验

1、和使用temporal attention的方法比较
在这里插入图片描述
2、和SOTA小样本方法比较
在这里插入图片描述
从表中可以看出,采用temporal attention融合帧级特征的方法普遍比采用平均融合的方法效果好;和SOTA的OTAM相比,在1-shot上相差较大,作者认为有两个原因,OTAM采用了更强的端到端的fine-tune的backbone,其次样本数量太少不足以很好的训练softmax函数(因为在5-shot里OTAM和CLTA效果差不多);而且OTAM还引进了很大的计算量

结论

作者提出为不同视频生成不同的时间注意力,考虑到视频有多个关键时期,作者又为每个视频设计了多个时间注意力,使得模型充分学习视频的时间信息。

在小样本学习中,基本上特征提取网络的选取不会做很大改动,主要是对提取的帧特征的处理,也就是空间特征已经提取的差不多了,应该更多地考虑如何提取时间特征。

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

秃头嘤嘤魔

感谢厚爱

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值