PaddleVideo最新发布：支持3000种短视频分类，搞定足球精彩动作定位等

飞桨PaddlePaddle

于 2021-01-19 20:27:32 发布

阅读量1.4k

点赞数

文章标签：算法大数据编程语言 python 机器学习

点击左上方蓝字关注我们

广大人工智能算法工程师，有没有感觉到近几年AI程序员数量激增，公司新来的程序员也可以轻松实现图像分类、目标检测等基本深度学习任务，资深算法工程师岗位如何自保？

广大内容平台的后台开发者，视频理解，视频标签与推荐、关键帧识别自动剪辑，这样的深度学习技术积累，你们准备好了么？

普通用户们，有没有遇到过想从手机或者电脑视频库里面找之前一段视频（比如骑马、射箭、滑雪、游泳），但是无论如何也找不到的窘境。

如果有的话，那今天你赚到了！

言归正传，看看小编今天给大家带来的深度学习黑科技，直接上效果。

3000类短视频打标签，一行代码调用！

精准定位角球、进球等精彩足球动作：

智能视频剪辑：《伤心镜头集锦：看谁最能打动人心》

注：值得一提的是，以上视频并不是人工剪辑的，完全是结合知识图谱做出的智能化视频生产。具体来说，首先运用知识图谱的能力，根据视频标题可以找到很多包含某些特殊动作类别的视频，然后再运用Localization技术把每个视频中的这些片段剪辑出来，组合成一个新视频，最后用NLP技术生成视频标题分发出去。

这样的深度学习项目你一定觉得很有趣吧，是的，广大的开发者也是这么认为的。

开源之后star迅速增长，迅速拉升！

项目主要干货包含：

（1）丰富的模型种类：包括视频分类和动作定位两大技术方向模型，包括TSN，TSM，SlowFast，Attention LSTM，BMN等实用领先模型。其中，BMN模型是百度2019年ActivityNet（视频理解领域影响力最大赛事）夺冠方案。

（2）开源3000类预训练模型VideoTag及标签体系（离线可用）：使用千万量级数据集训练的3000类视频标签预训练模型，可以快速预测部署。

（3）开源足球动作检测算法FootballAction（离线可用）：实现在一段未分割的视频中，定位出各种足球动作发生的起止时间以及该动作的具体类别。

（4）提出2D领域SOTA算法PPTSM：达到2D网络SOTA效果，Top1 Acc 73.5% 相较标准版TSM提升3%且模型参数量持平。

（5）更快的训练速度：多种视频模型训练加速方案，其中SlowFast训练速度相较于原始实现提速100%，TSN训练速度相较于原始实现提速3.6倍。

（6）完整部署全流程：搞过项目上线的工程师自然知道，完整的部署方案多重要。

如果心急的，可以直接传送门

https://github.com/PaddlePaddle/PaddleVideo

具体内容详解

丰富的模型种类

PaddleVideo包含视频分类和动作定位方向的多个主流领先模型。其中TSN, TSM和SlowFast是End-to-End的视频分类模型，Attention LSTM是比较流行的视频特征序列模型，BMN是视频动作定位模型。TSN是基于2D-CNN的经典解决方案，TSM是基于时序移位的简单高效视频时空建模方法，SlowFast在ICCV2019上提出的3D高精度视频分类模型，特征序列模型Attention LSTM速度快精度高。BMN模型是百度开源2019年ActivityNet夺冠方案。

开源3000分类预训练模型VideoTag

基于百度短视频业务千万级数据，支持3000个源于产业实践的实用标签，具有良好的泛化能力，非常适用于国内大规模（千万/亿/十亿级别）短视频分类场景的应用。

开源足球动作检测方案FootballAction

FootballAction分为三个组成部分：特征抽取，时序提名生成，动作分类及后处理模块。

特征抽取:图像特征: TSN
音频特征: Vggish

时序提名生成: BMN
动作分类 + 回归: AttentionLSTM

提出SOTA算法PPTSM

与图像任务相比，视频任务的难点在于时序信息的提取。传统的2D网络难以捕获时序信息，通过增加时序通道，3D网络能更好的联合时序特征建模。但3D网络的计算量较大，部署成本较高。TSM模型通过时序位移模块，有效平衡了计算效率和模型的性能，是一种高效实用视频理解模型，在工业界广泛应用。

PaddleVideo基于飞桨框架2.0对TSM模型进行了改进，在不增加参数量和计算量的情况下，在多个数据集上精度显著超过TSM论文精度，比如UCF101、Kinetics-400数据集上分别提升5.5%、3.5%。在仅用ImageNet pretrain情况下，PPTSM在UCF101和Kinetics400数据集top1分别达到89.5%和73.5%，PPTSM在Kinetics400上top1精度为73.5%，是至今为止开源的2D视频模型中在相同条件下的最高性能。

实现更快的训练速度

视频任务相比于图像任务的训练往往更加耗时，其原因主要有两点: 一是模型上，视频任务使用的模型通常有更大的参数量与计算量；一是数据上，视频文件解码通常极为耗时。为优化视频模型训练速度，项目中分别从模型角度和数据预处理角度，实现了多种视频训练加速方案。

针对TSM模型，通过op融合的方式实现了temporal shift op，在节省显存的同时加速训练过程。针对TSN模型，实现了基于DALI的纯GPU解码方案，训练速度较标准实现加速3.6倍。

针对SlowFast模型，结合Decode解码库和DataLoader多子进程异步加速，训练速度较原始实现提升100%，使用Multigrid策略训练总耗时可以进一步减少。预先解码存成图像的方案也能显著加速训练过程，TSM/ppTSM在训练全量Kinetics-400数据集80个epoch只需要2天；均大幅优于主流实现。

打通完整部署全流程

PaddleVideo提供了便捷的命令行预测，只需要快速安装ppvideo：

pip install ppvideo

然后python命令行执行：

ppvideo --model_name=”ppTSM” --video_file=指定视频文件

一行代码即可完成预测推理。在推理速度上，PPTSM也达到了惊人的147VPS。

良心出品的文档

别的不需要多说了，大家上github上点过star之后自己体验吧，

https://github.com/PaddlePaddle/PaddleVideo

另外呢，repo中也贴心的给出了官方微信群，有问题可以进群，答疑更高效。

如扫码入群失败，请添加微信17867434144，回复“视频”，运营小姐姐会邀请您入群。

项目地址：

GitHub: https://github.com/PaddlePaddle/PaddleVideo

Gitee: https://gitee.com/paddlepaddle/PaddleVideo

如在使用过程中有问题，可加入官方QQ群进行交流：778260830。

如果您想详细了解更多飞桨的相关内容，请参阅以下文档。

·飞桨官网地址·

https://www.paddlepaddle.org.cn/

·飞桨开源框架项目地址·

GitHub: https://github.com/PaddlePaddle/Paddle

Gitee: https://gitee.com/paddlepaddle/Paddle

飞桨(PaddlePaddle)以百度多年的深度学习技术研究和业务应用为基础，是中国首个开源开放、技术领先、功能完备的产业级深度学习平台，包括飞桨开源平台和飞桨企业版。飞桨开源平台包含核心框架、基础模型库、端到端开发套件与工具组件，持续开源核心能力，为产业、学术、科研创新提供基础底座。飞桨企业版基于飞桨开源平台，针对企业级需求增强了相应特性，包含零门槛AI开发平台EasyDL和全功能AI开发平台BML。EasyDL主要面向中小企业，提供零门槛、预置丰富网络和模型、便捷高效的开发平台；BML是为大型企业提供的功能全面、可灵活定制和被深度集成的开发平台。

END