0. 前言
1. 要解决什么问题
-
当前行为识别模型研究现状:
- 2D模型在Something-Something上效果更好,3D模型在Kinetics上效果更好。
- 现在行为识别模型的对比上一般会关注accuracy和efficiency,而忽略其他细节,比如backbone。
- 一般认为,对时间维度建模在行为识别中非常重要,但最新研究表明,在Kinetics和Moments-in-Time数据集上,纯spatial模型的效果跟spatio-temporal模型效果差不多,甚至更好。
- 行为识别近些年的研究,主要集中在efficientcy上,在accuracy上提高较少。
-
进一步对比、分析现有行为识别模型的结果。
- 特别要比较2D与3D模型之间的关系。
2. 用了什么方法
- 构建统一结构,控制变量,分析2D与3D模型。
3. 效果如何
-
对结果进行分析,得出一些有趣的结论:
- 行为识别近些年的研究,主要集中在efficientcy上,在accuracy上提高较少。
- 2D与3D模型,如果除结构其他参数完全相同,那么两者模型的时空表达能力差不多。
- 高效的空间建模对结果影响很大,甚至对Kinetics的影响也很大。
- 分析数据顺序对结果的影响
- temporality is not considered as intrinsic in action data by recent spatio-temporal models。
-
对比了2D与3D模型
- 两种常见的抽帧策略:uniform sampling 和 dense sampling
- 不同的temporal aggregation策略
-
人和模型对于 data temporality 的理解非常不同
- 人选出一些时间顺序相关的动作
- 使用TSN和TAM训练一些模型,将性能提升最大的那些类认为是“模型认为data temporality较大的类”
4. 还存在什么问题&可借鉴之处
- 使用的训练策略如下
- 对比I3D/TAM/SlowFast的temporal gain,其实差不多
- 所谓 temporal gain,就是与TSN比accuracy上升幅度。
- 2D/3D模型其实差不多。
- 关于 data temporality 有一个现象
- 如果把模型认为最 data temporality 的40类去掉,总体accuracy提升了(说明temporal相关类的准确率较低)
- 去掉temporal相关类后,acc增加,ATG-all和ATG-tc没有下降太多。
- ATG是 average temporal gain的缩写,即通过temporal操作提高的精度。all代表所有类,tc代表temporal gain 最高的40类。