行为识别 - Deep Analysis of CNN-based Spatio-temporal Representations for Action Recognition

最新推荐文章于 2022-11-14 22:12:42 发布

清欢守护者

最新推荐文章于 2022-11-14 22:12:42 发布

阅读量858

点赞数

分类专栏： CV 文章标签：人工智能计算机视觉行为识别视频分类

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/irving512/article/details/109302908

版权

CV 专栏收录该内容

98 篇文章 21 订阅

订阅专栏

文章目录

0. 前言

相关资料：
- arxiv
- github
- 论文解读
论文基本信息
- 领域：行为识别
- 作者单位：MIT & IBM
- 发表时间：2020.10
一句话总结：实验报告，总结现有行为识别模型的特点

1. 要解决什么问题

当前行为识别模型研究现状：
- 2D模型在Something-Something上效果更好，3D模型在Kinetics上效果更好。
- 现在行为识别模型的对比上一般会关注accuracy和efficiency，而忽略其他细节，比如backbone。
- 一般认为，对时间维度建模在行为识别中非常重要，但最新研究表明，在Kinetics和Moments-in-Time数据集上，纯spatial模型的效果跟spatio-temporal模型效果差不多，甚至更好。
- 行为识别近些年的研究，主要集中在efficientcy上，在accuracy上提高较少。
进一步对比、分析现有行为识别模型的结果。
- 特别要比较2D与3D模型之间的关系。

2. 用了什么方法

构建统一结构，控制变量，分析2D与3D模型。

3. 效果如何

对结果进行分析，得出一些有趣的结论：
- 行为识别近些年的研究，主要集中在efficientcy上，在accuracy上提高较少。
- 2D与3D模型，如果除结构其他参数完全相同，那么两者模型的时空表达能力差不多。
- 高效的空间建模对结果影响很大，甚至对Kinetics的影响也很大。
- 分析数据顺序对结果的影响
  - temporality is not considered as intrinsic in action data by recent spatio-temporal models。
对比了2D与3D模型

两种常见的抽帧策略：uniform sampling 和 dense sampling

不同的temporal aggregation策略

人和模型对于 data temporality 的理解非常不同
- 人选出一些时间顺序相关的动作
- 使用TSN和TAM训练一些模型，将性能提升最大的那些类认为是“模型认为data temporality较大的类”

4. 还存在什么问题&可借鉴之处

使用的训练策略如下

对比I3D/TAM/SlowFast的temporal gain，其实差不多
- 所谓 temporal gain，就是与TSN比accuracy上升幅度。
- 2D/3D模型其实差不多。

关于 data temporality 有一个现象
- 如果把模型认为最 data temporality 的40类去掉，总体accuracy提升了（说明temporal相关类的准确率较低）
- 去掉temporal相关类后，acc增加，ATG-all和ATG-tc没有下降太多。
- ATG是 average temporal gain的缩写，即通过temporal操作提高的精度。all代表所有类，tc代表temporal gain 最高的40类。

清欢守护者

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。