使用深度学习对视频进行分类

本文介绍了如何使用预训练的GoogLeNet模型和LSTM网络对视频进行分类。首先,将视频帧转换为特征向量,然后利用LSTM进行序列学习,最后组合成一个直接对视频进行分类的网络。通过训练和验证数据,展示了一种有效的视频分类方法。
摘要由CSDN通过智能技术生成

目录

加载预训练卷积网络

加载数据

将帧转换为特征向量

准备训练数据

创建 LSTM 网络

指定训练选项

训练 LSTM 网络

组合视频分类网络

使用新数据进行分类

辅助函数


        此示例说明如何通过将预训练图像分类模型和 LSTM 网络相结合来创建视频分类网络。

要为视频分类创建深度学习网络,请执行以下操作:

  1. 使用预训练卷积神经网络(如 GoogLeNet)将视频转换为特征向量序列,以从每帧中提取特征。

  2. 基于序列训练 LSTM 网络来预测视频标签。

  3. 通过合并来自两个网络的层,组合一个直接对视频进行分类的网络。

下图说明网络架构。

  • 要将图像序列输入到网络,请使用序列输入层。

  • 要使用卷积层来提取特征,也就是说,要将卷积运算独立地应用于视频的每帧,请使用一个后跟卷积层的序列折叠层。

  • 要还原序列结构体并将输出重构为向量序列,请使用序列展开层和扁平化层。

  • 要对得到的向量序列进行分类,请包括 LSTM 层,并在其后添加输出层。

加载预训练卷积网络

        要将视频帧转换为特征向量,请使用预训练网络的激活值。

        使用 googlenet 函数加载预训练的 GoogLeNet 模型。此函数需要 Deep Learning Toolbox™ Model for GoogLeNet Network 支持包。如果未安装此支持包,则函数会提供下载链接。

netCNN = googlenet;

加载数据

        ​从 HMDB:大型人体运动数据库下载 HMBD51 数据集,并将 RAR 文件提取到名为 "hmdb51_org" 的文件夹中。该数据集包含 51 个类的 7000 个片段、大约 2 GB 的视频数据,例如 "drink"、"run" 和 "shake_hands"。

        提取 RAR 文件后,使用支持函数 hmdb51Files 获取视频的文件名和标签。​

dataFolder = "hmdb51_org";
[files,labels] = hmdb51Files(dataFolder);

        使用在此示例末尾定义的 readVideo 辅助函数读取第一段视频,并查看该视频的大小。该视频是 H×W×C×S 数组,其中 H、W、C 和 S 分别是视频的高度、宽度、通道数和帧数。

idx = 1;
filename = files(idx);
video = readVideo(filename);
size(video)
ans = 1×4

   240   320     3   409

查看对应的标签。

labels(idx)

ans = categorical
     brush_hair 

        要查看视频,请使用 implay 函数(需要 Image Processing Toolbox™)。此函数需要数据在 [0,1] 范围内,因此您必须先将数据除以 255。也可以遍历各个帧,并使用 imshow 函数。

numFrames = size(video,4);
figure
for i = 1:numFrames
    frame = video(:,:,:,i);
    imshow(frame/255);
    drawnow
end

将帧转换为特征向量

        当将视频帧输入到网络时,通过获取激活值,将卷积网络用作特征提取器。将视频转换为特征向量序列,其中特征向量是 GoogLeNet 网络的最后一个池化层 ("pool5-7x7_s1") 上 activations 函数的输出。

下图说明通过网络的数据流。

        要读取视频数据并调整其大小以匹配 GoogLeNet 网络的输入大小,请使用在此示例末尾定义的 readVideo 和 centerCrop 辅助函数。此步骤可能需要很长时间才能完成运行。在将视频转换为序列后,将序列保存在 tempdir 文件夹的一个 MAT 文件中。如果该 MAT 文件已存在,则从 MAT 文件加载序列,而不必重新转换它们。

inputSize = netCNN.Layers(1).InputSize(1:2);
layerName = "pool5-7x7_s1";

tempFile = fullfile(tempdir,"hmdb51_org.mat");

if exist(tempFile,'file
【备注】 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用!有问题请及时沟通交流。 2、适用人群:计算机相关专业(如计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网、自动化、电子信息等)在校学生、专业老师或者企业员工下载使用。 3、用途:项目具有较高的学习借鉴价值,不仅适用于小白学习入门进阶。也可作为毕设项目、课程设计、大作业、初期项目立项演示等。 4、如果基础还行,或热爱钻研,亦可在此项目代码基础上进行修改添加,实现其他不同功能。 欢迎下载! 基于深度学习视频序列实现人体动作分类识别matlab源码+运行视频+论文+详细注释.zip 基于深度学习视频序列实现人体动作分类识别matlab源码+运行视频+论文+详细注释.zip 基于深度学习视频序列实现人体动作分类识别matlab源码+运行视频+论文+详细注释.zip基于深度学习视频序列实现人体动作分类识别matlab源码+运行视频+论文+详细注释.zip基于深度学习视频序列实现人体动作分类识别matlab源码+运行视频+论文+详细注释.zip基于深度学习视频序列实现人体动作分类识别matlab源码+运行视频+论文+详细注释.zip基于深度学习视频序列实现人体动作分类识别matlab源码+运行视频+论文+详细注释.zip基于深度学习视频序列实现人体动作分类识别matlab源码+运行视频+论文+详细注释.zip基于深度学习视频序列实现人体动作分类识别matlab源码+运行视频+论文+详细注释.zip基于深度学习视频序列实现人体动作分类识别matlab源码+运行视频+论文+详细注释.zip基于深度学习视频序列实现人体动作分类识别matlab源码+运行视频+论文+详细注释.zip基于深度学习视频序列实现人体动作分类识别matlab源码+运行视频+论文+详细注释.zip基于深度学习视频序列实现人体动作分类识别matlab源码+运行视频+论文+详细注释.zip 基于深度学习视频序列实现人体动作分类识别matlab源码+运行视频+论文+详细注释.zip 基于深度学习视频序列实现人体动作分类识别matlab源码+运行视频+论文+详细注释.zip 基于深度学习视频序列实现人体动作分类识别matlab源码+运行视频+论文+详细注释.zip
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值