基于CNN和VLAD的人体行为识别研究

最新推荐文章于 2023-04-22 19:35:52 发布

夏_朵朵

最新推荐文章于 2023-04-22 19:35:52 发布

阅读量3.8k

点赞数

分类专栏：视频检索文章标签：人体行为识别深度学习

本文链接：https://blog.csdn.net/h_ijun/article/details/79505888

版权

视频检索专栏收录该内容

1 篇文章 0 订阅

订阅专栏

人体行为识别在科技、生活中有着广泛的应用，如视频监控、人机交互、虚拟现实和视频检索等，因此智能的人体识别技术具有很高的研究价值和应用前景，特别是现今视频数据呈指数增长。相对于传统的人工特征方法，CNN特征在对原始数据的特征表达方面有着绝对的优势，已经逐渐取代了以HOG和SIFT等人工特征成为主流的特征提取方法。VLAD（Vector of Aggragate Locally Descriptor）是一种能将尺寸不同的视频特征数据表示成尺寸相同的特征向量，通过VLAD特征表示可以使视频特征数据满足一般分类器的输入要求并得到分类结果。

下面介绍几个常用的数据集：

1.1 KTH

介绍：视频数据集包括六种动作（走、慢跑、快跑、拳击、挥手和鼓掌），所有动作由25个人分别演示，并且融合了四种场景进行演示，一共有 $25 \times 6 \times 4 = 600$ 个AVI视频文件。

1.2 Weizmaan

介绍：一共有90个视频文件，由9个人展示，每个人展示十种动作。

1.3 HOHA

介绍：从电影中采集的真实的人类活动。

1.4 Keck Gesture

介绍：包含14中不同手势（军用信号），使用彩色相机拍摄，分辨率为 $640 \times 480$ ，每个手势都有三个人演示，每个视频序列中，一个人重复演示三次同样的手势，训练的一共有 $3 \times 3 \times 14 = 126$ 个视频序列。并且拍摄角度固定背景也固定。测试的一共 $4 \times 3 \times 14 = 168$ 个视频序列，并且使用运动相机拍摄并且处于杂乱且有移动物体的背景中。视频格式为AVI。

1.5 MSR action

数据集包含16个视频序列，并且一共有63个动作，每一个视频序列包含复合动作，一些序列不同人的不同动作，同时有室内和室外场景，所有的视频都是在杂乱并且移动的背景中。视频分辨率为 $320 \times 240$ ，帧率为15fps，视频序列的长度在32~76秒之间