TARN: Temporal Attentive Relation Network for Few-Shot and Zero-Shot Action Recognition(TARN:时间注意力关系网络解决小样本和零样本的动作识别问题)
注:转载请标明出处。相关论文链接:https://xueshu.baidu.com/usercenter/paper/show?paperid=1d1406u0m6590ve06a3f0t300x055344&site=xueshu_se
1 摘要
在本文中,我们提出了一种新颖的时间注意力关系网络(TARN),用于解决小样本和零样本的动作识别问题。我们网络的核心是一种元学习的方法,该方法可以学会比较可变时间长度的表示,即两个不同长度的视频(小样本学习)或一个视频和一个语义表示如单词向量(零样本学习)。
与小样本和零样本动作识别中的其他方法相比,我们的方法有两方面提高:
a)利用注意力机制(attention mechanism)来实现视频的时间对齐;
b)在视频的片段级别上,对已经对齐的表示进行深度度量。
我们采用episode、end-to-end的方式训练我们的网络。该方法不像存储网络那样,需要在目标域中进行网络微调或存储记忆。实验结果表明,该结构在小样本动作识别中优于现有的state-of-the-art方法,并在零样本动作识别中获得了有竞争力的结果。
图1:TARN体系结构。由嵌入模块和关系模块组成。在C-way K-shot任务(其中K> 1)中,查询集视频与支持集视频每个类别的关系得分,是该类别的样本关系得分的平均值。
2 绪论
我们的网络(TARN)通过在视频片段级别上进行工作,来计算查询集视频与其他支撑集视频之间的关系得分,并为查询集视频分配得分最高的支撑集视频所对应的标签。
关系/相似度比较分两个阶段:嵌入阶段和关系阶段。
在嵌入阶段中,