论文解读4 STRM《Spatio-temporal Relation Modeling for Few-shot Action Recognition》少镜头动作识别 CVPR2022-CSDN博客

Spatio-temporal Relation Modeling for Few-shot Action Recognition

少镜头动作识别的时空关系建模

文章链接：https://arxiv.org/abs/2112.05132
C-way K-shot L帧
在这里插入图片描述
第一步：
常规操作，L视频帧通过图像特征提取器，该提取器输出空间分辨率为P×P的D维帧特征，对帧特征进行空间展平，维度变为p2×D（reshape）

第二步:
通过spatio-temporal enrichment module 中的Enriching Local Patch Features（PLE)
增强单个帧中的局部补丁特征，在每个帧内局部地聚集空间上下文。这使得能够聚焦于帧中的相关对象。
在这里插入图片描述
先position embedding一下输入的xi，值嵌入通过查询和键之间的标准化成对得分重新加权，以获得关注特征αi。

最后将attention通过子网络（3-layer Bottleneck MLP followed by a residual layer），得到输出结果

第三步:
通过spatio-temporal enrichment module 中的frame level enrichment (FLE)
增强全局帧特征在时间上跨越视频中的帧，在视频内的帧之间全局地富集时间上下文。
（引入了MLP 作为Google ViT团队最近刚提出的一种的CV框架，MLP-Mixer使用多层感知机（MLP）来代替传统CNN中的卷积操作（Conv）和Transformer中的自注意力机制（Self-Attention）)

在这里插入图片描述
先 avg一下（torch.mean()）得到FLE的输入

再通过两个MLP模块(nn.Linear+nn.ReLU+nn.Linear,再加上本身)

空富集模块利用了局部和全局、样本依赖和样本不可知的富集机制的优势，以改进行动的空间和时间上下文的聚合。结果，随着在较低基数表示中同化高阶时间关系，获得了特定于类的区分特征。