业界首个视频识别与定位工具集PaddleVideo重磅更新

最新推荐文章于 2024-08-07 10:19:54 发布

lovenlper

最新推荐文章于 2024-08-07 10:19:54 发布

阅读量174

点赞数

本文链接：https://blog.csdn.net/lovenlper/article/details/103716206

版权

PaddleVideo更新增加C-TCN动作定位模型，优化已有分类模型，提升训练速度。C-TCN在THUMOS14和ActivityNet1.3上表现出色，用于定位视频中特定动作片段。此外，Non-local模型结构增强，提供ResNet101和l3D选项。

摘要由CSDN通过智能技术生成

飞桨 (PaddlePaddle) 致力于让深度学习技术的创新与应用更简单。7 月初，随着 Paddle Fluid 1.5 版本的发布，国内业界首个视频识别与定位工具集 PaddleVideo 也迎来了重磅更新。

PaddleVideo 在实际工业界可以形成很多具体应用，包括：视频精彩片段预测、关键镜头定位、视频剪辑等任务，例如定位 NBA 篮球赛视频中扣篮镜头，电视剧中的武打镜头等。如下图所示：

640?wx_fmt=png

本文末尾，为广大算法和开发同学准备了 PaddleVideo 模型实战的应用案例，视频剪辑、素材拼接和标题生成工作完全是程序模型自动完成的，极大地减轻了人力剪辑的工作量，效果也还不错。不过，在看具体模型具体应用之前，让我们可以先来了解一下 PaddleVideo。

1.PaddleVideo 是什么？

PaddleVideo 是飞桨在计算机视觉领域为用户提供的模型库 PaddleCV 中的视频识别与定位部分的模型库。PaddleVideo 的全部模型都是开源的，用户可以一键式快速配置模型完成训练和评测。

PaddleVideo 目前视频分类和动作定位模型包括：

640?wx_fmt=png

2.重磅更新内容详解

本次重磅更新要点如下：

增加动作定位模型 C-TCN，该模型是 2018 年 ActivityNet 夺冠方案。
增加已发布的模型骨干网络，Non-local 模型增加 ResNet101 和 l3d 网络结构
优化已经发布的分类模型，NeXtVLAD 训练速度提升 60%，TSM 训练速度领先同类框架 39%

首先是动作定位模型 C-TCN。在介绍模型前，需要了解一下 ActivityNet。

ActivityNet 是目前视频理解领域影响力最大的赛事，与每年的顶级学术会议 CVPR 一起召开。在 2019 年的竞赛中，百度公司计算机视觉团队获得视频动作提名、视频动作检测两项任务的冠军，并在新增任务 EPIC-Kitchens 动作识别挑战赛中获两项测试集冠军（Seen kitchens 和 Unseen kitchens）。这已