百度飞将BMN时序动作定位框架 | 数据准备与训练指南（上）

訢詡

已于 2022-07-06 08:58:26 修改

阅读量3.4k

点赞数

分类专栏：深度学习CV方向文章标签：动作检测视频分类时序定位 Paddle 机器视觉

于 2022-07-05 16:18:43 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Andrwin/article/details/125513910

版权

一、介绍

BMN模型是百度自研，2019年ActivityNet夺冠方案，为视频动作定位问题中proposal的生成提供高效的解决方案。

简单说，视频的时序动作定位就是给一段视频，分析出从xxx秒到xxx秒是一个什么动作，相比动作识别需要推断这个动作的起始时间和终止时间，指标主要涉及两个：（1）分类准确率（2）与GT的IoU。

项目地址：

GitHub - PaddlePaddle/PaddleVideo: 基于模块化的设计，提供丰富的视频算法实现、产业级的视频算法优化与应用，包括安防、体育、互联网、媒体等行业的动作定位与识别、行为分析、智能封面、视频标注、视频打标签等，涵盖动作识别与视频分类、动作定位、动作检测、多模态文本视频检索等技术。基于模块化的设计，提供丰富的视频算法实现、产业级的视频算法优化与应用，包括安防、体育、互联网、媒体等行业的动作定位与识别、行为分析、智能封面、视频标注、视频打标签等，涵盖动作识别与视频分类、动作定位、动作检测、多模态文本视频检索等技术。 - GitHub - PaddlePaddle/PaddleVideo: 基于模块化的设计，提供丰富的视频算法实现、产业级的视频算法优化与应用，包括安防、体育、互联网、媒体等行业的动作定位与识别、行为分析、智能封面、视频标注、视频打标签等，涵盖动作识别与视频分类、动作定位、动作检测、多模态文本视频检索等技术。https://github.com/PaddlePaddle/PaddleVideo这个项目需要的存储空间挺多的，大概200G左右，要放在一个充裕的空间

算法主要分为三个阶段：

（1）视频理解

PP-TSM，音频特征：VGGish

（2）时序提名

BMN

（3）动作分类与定位

AttentionLSTM

每个阶段都包含了数据准备、训练、验证和导出推理模型等环节。

准备环境主要是依赖requirements.txt里面的内

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。