一、介绍
BMN模型是百度自研,2019年ActivityNet夺冠方案,为视频动作定位问题中proposal的生成提供高效的解决方案。
简单说,视频的时序动作定位就是给一段视频,分析出从xxx秒到xxx秒是一个什么动作,相比动作识别需要推断这个动作的起始时间和终止时间,指标主要涉及两个:(1)分类准确率(2)与GT的IoU。
项目地址:
算法主要分为三个阶段:
(1)视频理解
PP-TSM,音频特征:VGGish
(2)时序提名
BMN
(3)动作分类与定位
AttentionLSTM
每个阶段都包含了数据准备、训练、验证和导出推理模型等环节。
准备环境主要是依赖requirements.txt里面的内