论文解读4 STRM《Spatio-temporal Relation Modeling for Few-shot Action Recognition》少镜头动作识别 CVPR2022

Spatio-temporal Relation Modeling for Few-shot Action Recognition

少镜头动作识别的时空关系建模

文章链接:https://arxiv.org/abs/2112.05132
C-way K-shot L帧
在这里插入图片描述
第一步:
常规操作,L视频帧通过图像特征提取器,该提取器输出空间分辨率为P×P的D维帧特征,对帧特征进行空间展平,维度变为p2×D(reshape)

第二步:
通过spatio-temporal enrichment module 中的Enriching Local Patch Features(PLE)
增强单个帧中的局部补丁特征,在每个帧内局部地聚集空间上下文。这使得能够聚焦于帧中的相关对象。
在这里插入图片描述
先position embedding一下输入的xi,值嵌入通过查询和键之间的标准化成对得分重新加权,以获得关注特征αi。
在这里插入图片描述
最后将attention通过子网络(3-layer Bottleneck MLP followed by a residual layer),得到输出结果
在这里插入图片描述

第三步:
通过spatio-temporal enrichment module 中的frame level enrichment (FLE)
增强全局帧特征在时间上跨越视频中的帧,在视频内的帧之间全局地富集时间上下文。
(引入了MLP 作为Google ViT团队最近刚提出的一种的CV框架,MLP-Mixer使用多层感知机(MLP)来代替传统CNN中的卷积操作(Conv)和Transformer中的自注意力机制(Self-Attention))

在这里插入图片描述
先 avg一下(torch.mean())得到FLE的输入
在这里插入图片描述
再通过两个MLP模块(nn.Linear+nn.ReLU+nn.Linear,再加上本身)
在这里插入图片描述
空富集模块利用了局部和全局、样本依赖和样本不可知的富集机制的优势,以改进行动的空间和时间上下文的聚合。结果,随着在较低基数表示中同化高阶时间关系,获得了特定于类的区分特征。

第四步:
Loss由两部分组成,交叉熵损失,λ=0.1
在这里插入图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值