TSA-Net: Tube Self-Attention Network for Action QualityAssessment (论文理解)

在做一个项目时用到了AQA7数据集,进而发现了这篇文章,发现好像没有中文对于这篇论文的笔记,我就自己随便写写。(作为一个大二,水平有限)

code

paper

Abstract:

        现在对于动作质量评估的方法大多都是直接借用动作识别分类的模型,迁移加改进,来解决这个问题,但是这种方法其实忽略了特征映射中内在的差异,比如说的前景和背景信息。为了解决这个问题,由此提出了一个针对动作质量评估(AQA)的网络,也就是TSA-Net。详细一点就是在动作质量评估的过程中,引入一个单目标追踪器,并且提出TSA-Net模块,该模块采用稀疏特征交互,可以高效地生成丰富的时空上下文信息。嵌入到现有的视频网络后,就是TSA-Net。优点主要是高效率,高灵活性,良好的表现。

Introduction:

        没啥东西,感觉就是把摘要展开说了说,简单介绍了一下相关工作(AQA, 注意力机制)

Approach:        

        整个流程分为五部分,step1是对于一个输入的视频,分为L帧并且进行追踪,结果存于B。step2是第一次特征提取,对于同一个视频,分为N个clip,经过图示中的一系列变换,将特征提取出来存于X。step3是特征聚合,基于B和X,生成ST-Tube,再通过TSA机制完成特征的聚合,结果存于X'。step4第二次特征提取,将X'通过所示网络生成H',它代表的是整个视频或者说运动员的表现。step5是总的网络接口,通过MLP_Block生成最后的得分,对于不同的任务灵活的选择不同的loss计算方式。

        一些参数:

                帧集合:V=\begin{Bmatrix} F_{l} \end{Bmatrix} _{1}^{L}      特征集合:

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值