加入极市专业CV交流群,与6000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流!更有机会与李开复老师等大牛群内互动!
同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总,行业技术交流。点击文末“”立刻申请入群~
知乎专栏
https://zhuanlan.zhihu.com/p/75444151
“这篇笔记主要介绍我们团队(百度视觉技术部VideoPlus组)发表于ICCV 2019上的工作:"BMN : Boundary-Matching Network for Temporal Action Proposal Generation"[1]。 基于该方法,我们获得了今年ActivityNet Challenge的时序动作检测任务和时序动作提名任务的两项冠军。 基于PaddlePaddle的算法代码也将于近期开源。”
文章对去年所发表的BSN[2]方法所存在的一些短板进行了改进,提出了边界匹配网络(Boundary-Matching Network),能够高效地同时给密集分布的大量时序动作提名生成高质量的置信度分数,在算法效率和算法效果上均有明显提升。
时序动作提名生成任务的目的是给未裁剪的长视频生成一定数量的时序动作提名,一个时序提名即是一个可能包含动作片段的时序区间(从开始边界到结束边界),通常采用一定提名数量下的召回率指标来衡量算法效果。我们认为高质量的时序动作提名应该具备几点特质:
(1)灵活的时序长度
(2)精确的时序边界
(3)可靠的置信度分数。
现有的基于滑窗或anchor的方法或是基于聚类的方法都不能同时在这几个方面做好。为了解决这几个难点,[2]中提出了边界敏感网路-BSN,下面首先对BSN方法进行简单的回顾。
一、BSN方法回顾
关于BSN[2]方法,我之前也写过论文笔记,如果不了解的同学可以先看一下。
简单来说,在BSN方法中,我们首先去定位时序动作片段的边界(开始节点和结束节点),再将边界节点直接结合成时序提名,然后对每个候选时序提名,基于动作置信度分数序列来提取一个32维度的proposal-level的特征,最后基于所提取的proposal-level的特征来评估时序提名的置信度。
下面对BSN方法的优点和缺点进行一下讨论。
优点:
框架:提出了一种全新的且非常有效的时序提名生成框架,能够产生满足:
(1)时长灵活
(2)边界准确
(3)评分可靠的时序动作提名
灵活性:BSN方法的模块非常简单且灵活,能够灵活地应用于不同的垂类场景。
缺点:
效率不够高:提名特征提取以及置信度评估的过程是对每个时序提名逐个进行的,虽然可以在一定程度上做并行加速,但总体上还是效率比较差;
语义信息丰富性不足:为了保证提名特征提取过程的效率,BSN中所设计的32维提名特征是比较简单的,但也限制了置信度评估模块从特征中获得更加丰富的语义信息;
多阶段:BSN方法是一个多阶段的方法,没有将几部分网络联合优化。
为了优化这些缺点,我们所期盼的是在一个统一的网络中同时高效的产生时序概率序列以及所以时序提名的置信度分数,且在这个过程中还要进一步提升语义信息的丰富性。
基于anchor的方法(如SSAD[3] )能够通过anchor机制,将大量anchor与特征图相关联,从而可以直接通过卷积层来生成每个anchor的置信度、边界偏移量进行预测。
然而,BSN中并没有预定义anchor,而是自底向上地生成更加灵活多变的时序提名,因此anchor机制并不适用。
因此,为了解决BSN方法中所存在的缺陷,我们在这篇论文中提出了一种新的时序提名置信度评估机制-边界匹配机制(Boundary-Matching mechanism, BM mechanism),以及基于边界匹配机制的边界匹配网络(Boundary-Matching Network, BMN):