视频分类任务目的
视频分类是给定一个视频,为其划分到指定的类别中。视频分类与图像分类相似,不同点在于图像分类是给定单张图片进行划分类别,视频分类是给定连续的图片数据,进行类别的划分。
视频分类任务数据集
- UCF101:UCF101是一个现实动作视频的动作识别数据集,收集自YouTube,提供了来自101个动作类别的13320个视频。数据官方:link。
- Kinetics-400:Kinetics-400是一个大规模,高质量的YouTube视频网址数据集,其中包含 400 个动作类别。
- Kinetics-600: Kinetics-600 是 Kinetics-400 数据集的一个扩展。其中包含 600 个动作类别。
目前学术界主要以Kinetics-400、Kinetics-600为评估标准,并制作了大量预训练模型
视频分类模型
现阶段的模型主要以3d卷积和transformer为主,比较经典的模型有C3D、SlowFast论文地址,基于transformer的模型结构有MViT、Swin Transformer论文地址
我是基于pytorch进行工作和研究的,我目前发现pytorch提供如下预训练模型:
预训练模型准确度如下:
视频分类应用场景
- 直播平台鉴别违规行为
- 工厂监督生产
- 安防监控
如何训练模型和部署
由于视频分类涉及的内容较多,我想分多篇博客进行详细的讲解,在接下来的博客中我会详细讲述数据的预处理、模型的选型、训练与部署,如果对我的内容感兴趣,欢迎点赞收藏。
结尾
欢迎大家在评论区讨论、学习!
B站:Silver__Wolf_
Q:130856474