频动作识别、动作分类、动作检测、图像分类的定义、概念、任务、涉及算法及SOTA优势：

matlab_python22

于 2025-01-15 12:42:47 发布

阅读量760

点赞数 25

文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/matlab_python22/article/details/145157954

版权

视频动作识别、动作分类、动作检测、图像分类的定义、概念、任务、涉及算法及SOTA优势：

视频动作识别

定义与概念：是指对一小段视频中的内容进行分析，判断视频中的人物或物体执行了哪种动作。其核心在于解决视频中动作“在哪里”和“是什么”的两大核心问题，需要同时考虑视频的空间和时间维度信息。
任务：输入是视频片段，一般将其采样为若干帧，对采样帧的动作类别进行识别，输出视频中动作类别标签。
涉及算法：
- 基于传统方法：如基于全局表示的时空量方法，利用三维时空量的表面微分几何特性得到动作描述子；基于局部表示的时空感兴趣点方法，通过检测图像帧的像素值在空间和时间方向上具有显著局部变化的局部时空结构，提取局部时空尺度不变的特征进行动作分类。
- 基于深度学习方法：
  - 时空卷积神经网络（CNN）：3D卷积网络（3D-CNN）直接在时空维度上进行卷积操作，能够同时捕捉视频中的空间和时间特征，如C3D模型；双流网络（Two-Stream Networks）一个流处理RGB图像的空间信息，另一个流处理光流图像的时间信息，通过融合这两条流的特征进行动作识别。
  - 时序模型（RNN/LSTM/GRU）：递归神经网络（RNN）对视频中的序列信息进行建模，用于处理视频帧之间的时间依赖性，但易出现梯度消失问题；长短时记忆网络ÿ

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

matlab_python22 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。