在做一个项目时用到了AQA7数据集,进而发现了这篇文章,发现好像没有中文对于这篇论文的笔记,我就自己随便写写。(作为一个大二,水平有限)
Abstract:
现在对于动作质量评估的方法大多都是直接借用动作识别分类的模型,迁移加改进,来解决这个问题,但是这种方法其实忽略了特征映射中内在的差异,比如说的前景和背景信息。为了解决这个问题,由此提出了一个针对动作质量评估(AQA)的网络,也就是TSA-Net。详细一点就是在动作质量评估的过程中,引入一个单目标追踪器,并且提出TSA-Net模块,该模块采用稀疏特征交互,可以高效地生成丰富的时空上下文信息。嵌入到现有的视频网络后,就是TSA-Net。优点主要是高效率,高灵活性,良好的表现。
Introduction:
没啥东西,感觉就是把摘要展开说了说,简单介绍了一下相关工作(AQA, 注意力机制)
Approach:
整个流程分为五部分,step1是对于一个输入的视频,分为L帧并且进行追踪,结果存于B。step2是第一次特征提取,对于同一个视频,分为N个clip,经过图示中的一系列变换,将特征提取出来存于X。step3是特征聚合,基于B和X,生成ST-Tube,再通过TSA机制完成特征的聚合,结果存于X'。step4第二次特征提取,将X'通过所示网络生成H',它代表的是整个视频或者说运动员的表现。step5是总的网络接口,通过MLP_Block生成最后的得分,对于不同的任务灵活的选择不同的loss计算方式。
一些参数:
帧集合: 特征集合: