Motivation
使用3D卷积或者3D+LSTM会导致过拟合,因为用了很少的数据去训练一个复杂的模型。现在的小样本方法大多是基于比较视频描述子的,但是很多方法只注重了空间信息而忽略了时间信息。
作者介绍了三种用于小样本行为识别的方法,第一种通过帧特征的点乘计算帧之间的自注意力从而赋予时间权重,但是没有考虑连续帧,会错失关键帧;第二种使用temporal filter为不同帧赋予不同时间权重,但是从seen action用于unseen action可能会丢失时间信息;第三种之间比较帧之间的相似性,但是会导致很大的计算量。
因此作者提出为每个帧生成continues时间权重,同时对不同的视频调整时间权重。
Proposal
首先提取视频的帧级特征,然后使用类似高斯分布的函数为视频生成多个时间注意力(因为一个视频可能有多个关键时期进行预测,所以要有多个时间注意力)。作者设计了两个学习矩阵(mean learning matrix和standard deviation matrix)在帧特征和长度上学习均值和标准差。基于均值和标准差学习时间权重,进而学习时间信息。
Establish Frame-level Correlations via CLTA
公式(1)类似高斯函数,求得是
a
k
,
t
a_{k,t}
ak,t表示第t帧的第k个时间权重;
W
m
W^m
Wm和
W
s
∈
R
K
×
d
W^s∈R^{K×d}
Ws∈RK×d是两个可学习矩阵,
W
m
=
(
w
1
m
,
w
2
m
,
.
.
.
,
w
K
m
)
W^m=(w_1^m,w_2^m,...,w_K^m)
Wm=(w1m,w2m,...,wKm),
W
s
=
(
w
1
s
,
w
2
s
,
.
.
.
,
w
K
s
)
W^s=(w_1^s,w_2^s,...,w_K^s)
Ws=(w1s,w2s,...,wKs),其中d为特征维度,K表示每个视频时间权重的个数。
均值 u k u_k uk指的是 f θ ( x t ) ⋅ w k m f_θ(x_t)·w_k^m fθ(xt)⋅wkm取得最大值的帧的index,标准差 σ k σ_k σk是 w k m w_k^m wkm和每一个帧特征 f θ ( x t ) f_θ(x_t) fθ(xt)点积的和。最后 u k u_k uk和 σ k σ_k σk都要通过除以数据集Z中的最大长度进行正则化操作。
在该过程中,CLTA不仅学习了视频的内容还对视频长度进行编码,因此可以为不同的视频生成自定义的时间注意力。最后对求得的
a
k
,
t
a_{k,t}
ak,t进行正则化,并用于聚合特征级特征。
Video-level Representation Fusion
通过公式(5)对每个视频可以求得K个视频级特征,每个视频级特征关注视频的一个重要信息,因此需要对这些特征再次进行聚合构成一个视频级描述子进行预测。
有两种预测方法,一种是平等对待每个特征,采用平均法融合,即 V = 1 k Σ k = 1 K v k V=\frac{1}{k}Σ_{k=1}^Kv_k V=k1Σk=1Kvk。另一种方式就是学习一个soft-weight即 V = Σ k = 1 K s k v k V=Σ_{k=1}^Ks_kv_k V=Σk=1Kskvk, s k s_k sk表示第k个视频特征的权重。
Make CLTA Differentiable
作者认为公式(2)中的argmax不是可微的,因此作者采用了一个带有缩放参数β的soft-argmax来近似不可微分的argmax操作。
实验
1、和使用temporal attention的方法比较
2、和SOTA小样本方法比较
从表中可以看出,采用temporal attention融合帧级特征的方法普遍比采用平均融合的方法效果好;和SOTA的OTAM相比,在1-shot上相差较大,作者认为有两个原因,OTAM采用了更强的端到端的fine-tune的backbone,其次样本数量太少不足以很好的训练softmax函数(因为在5-shot里OTAM和CLTA效果差不多);而且OTAM还引进了很大的计算量
。
结论
作者提出为不同视频生成不同的时间注意力,考虑到视频有多个关键时期,作者又为每个视频设计了多个时间注意力,使得模型充分学习视频的时间信息。
在小样本学习中,基本上特征提取网络的选取不会做很大改动,主要是对提取的帧特征的处理,也就是空间特征已经提取的差不多了,应该更多地考虑如何提取时间特征。