TSA-Net: Tube Self-Attention Network for Action QualityAssessment (论文理解)

Deckard_Ors

已于 2023-06-29 18:08:24 修改

阅读量580

点赞数 2

分类专栏： Paper notes 文章标签： pytorch opencv 计算机视觉

于 2023-06-29 16:38:45 首次发布

本文链接：https://blog.csdn.net/qq_40238919/article/details/131441344

版权

TSA-Net是一种针对动作质量评估（AQA）的网络，它利用单目标追踪器和Tube Self-Attention（TSA）模块，有效地生成时空上下文信息，提高评估效率和准确性。通过在特征聚合阶段引入TSA机制，网络能更好地关注运动员特征，减少背景干扰。实验证实在AQA-7等数据集上，TSA-Net表现出高效率和准确性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在做一个项目时用到了AQA7数据集，进而发现了这篇文章，发现好像没有中文对于这篇论文的笔记，我就自己随便写写。（作为一个大二，水平有限）

code

paper

Abstract:

现在对于动作质量评估的方法大多都是直接借用动作识别分类的模型，迁移加改进，来解决这个问题，但是这种方法其实忽略了特征映射中内在的差异，比如说的前景和背景信息。为了解决这个问题，由此提出了一个针对动作质量评估(AQA)的网络，也就是TSA-Net。详细一点就是在动作质量评估的过程中，引入一个单目标追踪器，并且提出TSA-Net模块，该模块采用稀疏特征交互，可以高效地生成丰富的时空上下文信息。嵌入到现有的视频网络后，就是TSA-Net。优点主要是高效率，高灵活性，良好的表现。

Introduction:

没啥东西，感觉就是把摘要展开说了说，简单介绍了一下相关工作(AQA, 注意力机制）

Approach:

整个流程分为五部分，step1是对于一个输入的视频，分为L帧并且进行追踪，结果存于B。step2是第一次特征提取，对于同一个视频，分为N个clip，经过图示中的一系列变换，将特征提取出来存于X。step3是特征聚合，基于B和X，生成ST-Tube，再通过TSA机制完成特征的聚合，结果存于X'。step4第二次特征提取，将X'通过所示网络生成H'，它代表的是整个视频或者说运动员的表现。step5是总的网络接口，通过MLP_Block生成最后的得分，对于不同的任务灵活的选择不同的loss计算方式。

一些参数：

帧集合： $V=\begin{Bmatrix} F_{l} \end{Bmatrix} _{1}^{L}$ 特征集合：