动作识别学习资料

最新推荐文章于 2025-04-15 20:14:22 发布

cogitoErgoSumlif

最新推荐文章于 2025-04-15 20:14:22 发布

阅读量1k

点赞数 3

文章标签：深度学习 tensorflow

本文链接：https://blog.csdn.net/qq_45617958/article/details/115051272

版权

动作识别（Action Recognition ）学习资料

最基础的一点，由于许多深度学习的项目都是python语言实现的，所以要学习一些python基础知识，然后学习一下tensorflow/pytorch等。

原文链接：https://zhuanlan.zhihu.com/p/159256065
若有侵权，请作者联系删除。

CVPR2020：https://openaccess.thecvf.com/CVPR2020_search
输入论文题目，可搜索到。

github大佬整理的动作识别资料：
https://github.com/jinwchoi/awesome-action-recognition

github高赞项目：
https://github.com/kenshohara/3D-ResNets-PyTorch

论文及github

1、首先，需要了解一些基本的神经网络基本知识：神经网络->卷积->循环神经网络。然后了解一些基本工具：CNN，3D卷积神经网络，RNN等。知乎上有个博主总结了一些自己学习过程中的论文和代码，链接：https://github.com/yzldw333/ReadingPapper

2、CVPR 2020动作识别相关论文
（1）细粒度动作识别的多模态域适应技术，使用RGB与光流数据，解决动作识别在不同数据集上训练和测试性能下降的问题。
论文题目：Multi-Modal Domain Adaptation for Fine-Grained Action Recognition
下载链接：https://arxiv.org/pdf/2001.09691.pdf
代码：https://github.com/jonmun/MM-SADA-code

(2)时间金字塔网络（TPN）用于动作识别，可方便“即插即用”到2D和3D网络中，显著改进动作识别的精度。
论文题目：Temporal Pyramid Network for Action Recognition
下载链接：https://arxiv.org/pdf/2004.03548.pdf
代码：https://github.com/decisionforce/TPN

(3)提出motion excitation (ME) 模块和 multiple temporal aggregation (MTA) 模块用于捕获短程和长程时域信息，提高动作识别的速度和精度。
论文题目：TEA: Temporal Excitation and Aggregation for Action Recognition
下载链接：https://arxiv.org/pdf/2004.01398.pdf
代码：https://github.com/Phoenix1327/tea-action-recognition

(4)提取视频特征往往需要计算密集的3D CNN操作，该文发明一种 Gate-Shift Module (GSM) 模块利用分组空间选通方法控制时空分解交互，大大降低了视频动作识别算法复杂度。
论文题目：Gate-Shift Networks for Video Action Recognition
下载链接：https://arxiv.org/pdf/1912.00381.pdf
代码：https://github.com/swathikirans/GSM

(5)高效视频识别的扩展架构，降低参数量减少计算量
论文题目：X3D: Expanding Architectures for Efficient Video Recognition
下载链接：https://arxiv.org/pdf/2004.04730.pdf
代码：https://github.com/ZJCV/X3D

(6)提出一种简单有效的针对3D CNN 的正则化方法：Random Mean Scaling (RMS)，防止过拟合。
论文题目：Regularization on Spatio-Temporally Smoothed Feature for Action Recognition
下载链接：
代码：

(7)通过电影视频中语音与对应台词构建一个动作识别的分类器，然后用此模型对大规模的视频数据集进行了弱监督标注，使用此标注数据训练的模型在动作识别问题中取得了superior的精度。
论文题目：Speech2Action: Cross-Modal Supervision for Action Recognition
下载链接：https://arxiv.org/pdf/2003.13594.pdf
代码：

(8)面对视频分类中巨大的数据冗余，该文提出图像-音频对的概念，图像表示了视频中绝大部分表观信息，音频表示了视频中的动态信息，找到这些图像-音频对后再选择一部分用于视频分类，精度达到SOTA，还大大提高了动作识别的速度。
论文题目：Listen to Look: Action Recognition by Previewing Audio
下载链接：https://arxiv.org/pdf/1912.04487.pdf
代码：https://github.com/facebookresearch/Listen-to-Look

(9)如何在动作识别中进行更好的时空信息融合是涉及更好的动作识别算法的关键，该文提出在概率空间理解、分析时空融合策略，大大提高分析效率，并提出新的融合策略，实验证明该策略大大提高了识别精度。
论文题目：Spatiotemporal Fusion in 3D CNNs: A Probabilistic View
下载链接：https://arxiv.org/pdf/2004.04981.pdf
代码：https://github.com/scenarios/Probabilistic3DCNN

(10)该文提出一种多网格训练策略训练视频分类模型，大大降低训练时间，精度得以保持，甚至还有提高。
论文题目：A Multigrid Method for Efficiently Training Video Models
下载链接：https://arxiv.org/pdf/1912.00998.pdf
代码：

(11)该文提出动作基因组（Action Genome）的概念，将动作看作时空场景图的组合，在少样本的动作识别问题中提高了精度。
论文题目：Action Genome: Actions As Compositions of Spatio-Temporal Scene Graphs
下载链接：https://arxiv.org/pdf/1912.06992.pdf
代码：

(12)通过视频信号的时序校正模块提高少样本的视频分类精度
论文题目：Few-Shot Video Classification via Temporal Alignment
下载链接：https://arxiv.org/pdf/1906.11415.pdf
代码：

(13)无监督嵌入的视频表示学习。因为视频中含有丰富的动态结构信息，而且无处不在，所以是无监督视觉表示学习的最佳素材。本文在视频中学习视觉嵌入，使得在嵌入空间相似视频距离近，而无关视频距离远。在大量视频中所学习的视觉表示可大幅提高动作识别、图像分类的精度。
论文题目：Unsupervised Learning From Video With Deep Neural Embeddings
下载链接：https://arxiv.org/pdf/1905.11954.pdf
代码：https://github.com/neuroailab/VIE

(14)多模多任务的无监督表示学习，跨模态通过蒸馏进行表示共享。该自监督方法打败了ImageNet数据集上训练的有标注数据训练的模型。
论文题目：Evolving Losses for Unsupervised Video Representation Learning
下载链接：https://arxiv.org/pdf/2002.12177.pdf
代码：

(15)用于识别训练集没有的，对操作物体进行替换的动作
论文题目：Something-Else: Compositional Action Recognition With Spatial-Temporal Interaction Networks
下载链接：https://arxiv.org/pdf/1912.09930.pdf
代码：https://github.com/joaanna/something_else

(16)深度视频的动作识别
论文题目：3DV: 3D Dynamic Voxel for Action Recognition in Depth Video
下载链接：https://arxiv.org/pdf/2005.05501.pdf
代码：

(17)Skeleton-Based的动作识别，基于图卷积方法
论文题目：Disentangling and Unifying Graph Convolutions for Skeleton-Based Action Recognition
下载链接：https://arxiv.org/pdf/2003.14111.pdf
代码：https://github.com/kenziyuliu/MS-G3D

(18)Skeleton-Based动作识别，Shift Graph卷积网络方法
论文题目：Skeleton-Based Action Recognition With Shift Graph Convolutional Network
下载链接：https://openaccess.thecvf.com/content_CVPR_2020/papers/Cheng_Skeleton-Based_Action_Recognition_With_Shift_Graph_Convolutional_Network_CVPR_2020_paper.pdf
代码：https://github.com/kchengiva/Shift-GCN

(19)无监督Skeleton-Based的动作识别。该文提出一种编码器-解码器的RNN模型，可进行无监督的聚类，而此聚类结果可关联动作的类别，即也可以可以堪为预测。此无监督方法在基于骨架的动作识别中取得了与监督学习方法相相近的精度！
论文题目：PREDICT & CLUSTER: Unsupervised Skeleton Based Action Recognition
下载链接：https://arxiv.org/pdf/1911.12409.pdf
代码：

(20)语义引导的神经网络，用于Skeleton-Based人类动作识别，SGN 方案仅需非常小的参数量（仅0.69M）就实现了很高的识别精度。
论文题目：Semantics-Guided Neural Networks for Efficient Skeleton-Based Human Action Recognition
下载链接：https://arxiv.org/pdf/1904.01189.pdf
代码：https://github.com/microsoft/SGN

(21)上下文感知的图卷积，用于Skeleton-Based动作识别
论文题目：Context Aware Graph Convolution for Skeleton-Based Action Recognition
下载链接：
代码：

(22)面向细粒度动作分析的层级化高质量数据集
论文题目：FineGym: A Hierarchical Video Dataset for Fine-Grained Action Understanding
下载链接：https://arxiv.org/pdf/2004.06704.pdf
代码：