Action recognition进展介绍

最新推荐文章于 2023-04-30 17:39:31 发布

小胖蹄儿

最新推荐文章于 2023-04-30 17:39:31 发布

阅读量925

点赞数 1

分类专栏： Papers 文章标签：视频深度学习

本文链接：https://blog.csdn.net/Cheese_pop/article/details/78176358

版权

本文介绍了Action Recognition领域的研究进展，重点讨论了深度学习方法，如Two Stream网络和3D卷积网络。Two Stream方法通过结合空间和时间信息提高识别效果，而3D卷积网络则直接处理视频数据，以捕获时空特征。此外，文章还提到了关键帧识别和时序编码等其他方法，以及它们在UCF101和HMDB51数据库上的性能表现。

摘要由CSDN通过智能技术生成

原文地址：http://blog.csdn.net/wzmsltw/article/details/70239000

随着深度学习技术的发展，以及计算能力的进步（GPU等），现在基于视频的研究领域越来越受到重视。视频与图片最大的不同在于视频还包含了时序上的信息，此外需要的计算量通常也大很多。目前主要在做视频中动作定位相关的工作，为了开拓思路，读了不少视频分析相关领域的文章，所以打算写几篇博客，对视频分析相关的几个领域做一个简要的介绍。

这篇主要介绍Action Recognition（行为识别）这个方向。这个方向的主要目标是判断一段视频中人的行为的类别，所以也可以叫做Human Action Recognition。虽然这个问题是针对视频中人的动作，但基于这个问题发展出来的算法，大都不特定针对人，也可以用于其他类型视频的分类。

任务特点及分析

目的

给一个视频片段进行分类，类别通常是各类人的动作

特点

简化了问题，一般使用的数据库都先将动作分割好了，一个视频片断中包含一段明确的动作，时间较短（几秒钟）且有唯一确定的label。所以也可以看作是输入为视频，输出为动作标签的多分类问题。此外，动作识别数据库中的动作一般都比较明确，周围的干扰也相对较少（不那么real-world）。有点像图像分析中的Image Classification任务。

难点/关键点

强有力的特征：即如何在视频中提取出能更好的描述视频判断的特征。特征越强，模型的效果通常较好。
特征的编码（encode）/融合（fusion）：这一部分包括两个方面，第一个方面是非时序的，在使用多种特征的时候如何编码/融合这些特征以获得更好的效果；另外一个方面是时序上的，由于视频很重要的一个特性就是其时序信息，一些动作看单帧的图像是无法判断的，只能通过时序上的变化判断，所以需要将时序上的特征进行编码或者融合，获得对于视频整体的描述。
算法速度：虽然在发论文刷数据库的时候算法的速度并不是第一位的。但高效的算法更有可能应用到实际场景中去。