【论文笔记】TimeSformer

以下是我看了TimeSformer这篇文章的理解,如果理解有误,欢迎各位大佬指正。

一.介绍

原文:https://arxiv.org/pdf/2102.05095.pdf

代码:: https://github.com/facebookresearch/TimeSformer.

TimeSformer是一种用于处理视频分类的模型,它在ViT模型的基础上提出了Divided Space-Time 
 Attention (T+S)注意力机制,先计算只有time变量的时间自注意力分数,再计算只有space变量的空间自注意力分数。

该论文提出的TimeSformer模型相比于ViT模型,可以学到更多的可分离特征。

相比于其他用于视频分类的模型在K400,K600,SSV2等数据集上速度更快,精度更高,推理成本更低。

改进点:

1.提出了Divided Space-Time Attention计算方式

2.提出了Space-Time Self Attention 模型

 二.原理

TimeSformer主要结构如下图所示:

1.输入片段:F个RGB帧组成的片段作为输入。

2.拆分patches:每一帧分成size=P×P的patches : x(p,t),其中p=1,2...,N(表示这个patch的空间位置,即是一帧上的哪一块);t=1,2...,F(表示这个patch的时间位置,即是哪一帧上的)。

3.线性嵌入:对每一个patch进行时间和空间上的位置编码和卷积滤波,生成token。

 4.Q,K,V计算

 5.时空自注意力机制模型(Space-Time Self-Attention Models):

  • 3
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值