计算机视觉技术深度解读之视频动作识别

最新推荐文章于 2024-08-14 09:31:00 发布

AI扑社

最新推荐文章于 2024-08-14 09:31:00 发布

阅读量4.2k

点赞数 1

分类专栏： Ai扑社

本文链接：https://blog.csdn.net/sinat_15603323/article/details/102895469

版权

本文深入探讨视频动作识别，这是计算机视觉的重要任务。随着视频数据的增长，识别视频中的动作变得至关重要，尽管面临遮挡、视角变化等挑战。文章介绍了从人工特征到深度学习方法（如双流神经网络、三维卷积网络）的发展，并引用了关键研究和数据集，如Kinetics。目前，尽管已有显著进步，但仍存在提升空间。

摘要由CSDN通过智能技术生成

作者：极链AI研究院徐宝函

视频的理解与识别是计算机视觉的基础任务之一。随着视频设备和网络的普通，视频理解也吸引了越来越多研究者的关注。而识别视频中的动作则是其中一个充满挑战而又具有较高实际应用价值的任务。相比图像来说，视频内容和背景更加复杂多变，不同的动作类别之间具有相似性，而相同的类别在不同环境下又有着不同的特点。此外，由于拍摄造成的遮挡、抖动、视角变化等也为动作识别进一步带来了困难。在实际应用中，精确的动作识别有助于舆情监控，广告投放，以及很多其他视频理解相关的任务。

与图像识别相比，视频分析需要更大量数据。早期的数据集KTH[1]，Weizmann[2]等仅由演员表演固定的几个动作，如走路，慢跑等。之后，较大规模的数据集如UCF101[3]等由网络视频组成，具体动作类别则由志愿者人工标注完成。目前，研究者发布了更大规模的数据集，例如Kinetics[4]包含了上百类动作以及几十万视频（如图1所示示例），虽然相比实际情况仍不够全面，但也对动作识别的研究有了极大的帮助。

图1. Kinetics数据集的示例视频帧