BSN —《Boundary-Sensitive Network for Temporal Action Proposal Generation》概述

最新推荐文章于 2024-05-17 15:52:59 发布

一只工程狮

最新推荐文章于 2024-05-17 15:52:59 发布

阅读量1.3k

点赞数

分类专栏： Paper Computer Vision

本文链接：https://blog.csdn.net/qq_40913465/article/details/106597125

版权

Paper 同时被 2 个专栏收录

9 篇文章 0 订阅

订阅专栏

Computer Vision

9 篇文章 0 订阅

订阅专栏

BSN—《BSN:Boundary-Sensitive Network for Temporal Action Proposal Generation》概述

引言：

本文介绍了来自于上交大林天威大佬（知乎有账号）发表自ECCV’18上的一篇论文，本文主要提出了一种自下而上的动作检测框架网络 $B S N$ ，一下是对本文的大体概述，如有错误，欢迎留言指出。

一、主要贡献：

提出了一种基于 $l o c a l$ $t o$ $g l o b a l$ 的新架构（BSN）来生成高质量的时序动作提名，该架构 $l o c a l l y$ 定位高概率边界位置以获得精确的建议边界， $g l o b a l l y$ 评估 proposal-level 特征以获得可靠的提名置信度分数以供检索；
与其他最新的提名生成方法相比， $B S N$ 获得了更好的提名质量，并且可以在不可见的动作类中生成具有比较高质量的提名；
将 $B S N$ 与现有的动作分类器集成到检测框架中，可以显著提高时间动作检测任务的性能。

二、框架介绍以及相关细节：

与空间目标检测的内容相似，时序动作检测被分为两个阶段：1）提名生成；2）动作分类；作者在文中写到一个好的提名应该包括两点：

提名可以覆盖具有高召回率和高时间重叠的真实动作区域；
通过检索提名，可以使用较少的提名来实现高召回率和高重叠，从而降低后续步骤的计算成本。

2.1. BSN提出的原因

现有的框架大都使用预定义的持续时间范围和间隔的提名生成方案，这可能存在两个主要的缺点：

通常在时间上不够精确；
灵活性不够，无法覆盖真实活动实例的可变持续时间，特别是持续时间较大的情况下。

为了解决这些问题以及生成高质量的提名，作者提出了BSN框架。其生成提名时，主要包括三个步骤：

BSN评估视频中每个时间位置的概率，以生成作为局部信息的开始、结束和动作概率序列；
BSN分别直接组合具有高开始概率和高结束概率的时间位置来生成提案；
使用提名内以及提名周围的动作性分数（提名+BSP特征）组成的特征，BSN检索提案通过评估一个提名是否包含一个动作的置信度分数。

2.2. 框架介绍以及方法概述

该图为BSN算法的框架图，主要包括几个流程：(1) 视频特征提取；(2) 边界敏感网络（生成时序动作提名）；(3)非极大化抑制。下面对各个部分进行简要介绍。

2.2.1. 特征提取：

本文采用了 two-stream network 双流网络来提取特征。每个用作特征提取的视频帧单元称为一个snippet，包含图像帧以及光流等，具体的定义在论文中给出。作者拼接 spatial network 和 temporal network 的最后一层输出作为该 snippet 对应的特征。最终，对于一个包含T个snippet的视频，可以得到等长的特征序列。该特征序列实际上就是一个二维的矩阵。

2.2.2. 边界敏感网络：

BSN主要包含三个模块，依次为时序评估模块，提名生成模块和提名评估模块。

时序评估模块(Temporal Evaluation Module)

基于提取的图像特征序列，BSN中的时序评估模块采用3层时序卷积层来对视频序列中每个位置上动作开始的概率、动作结束的概率和动作进行的概率同时进行建模，从而生成动作开始概率序列，动作结束概率序列和动作概率序列。

提名生成模块(Proposal Generation Module)

基于上述的几种的概率序列，提名生成模块要生成候选时序动作提名，并对每个动作提名生成对应的特征描述。

要生成候选时序动作提名，首先我们选择动作开始和动作结束概率序列中满足以下两点条件之一的时间节点作为候选时序边界节点：（1）概率高于一个阈值（2）该时间节点的概率高于前一时刻以及后一时刻的概率（即一个概率峰值）。然后我们将候选开始时间节点和候选结束时间节点两两结合，保留时长符合要求的开始节点-结束节点组合作为候选时序动作提名。算法示意图如上图(a)所示。

接下来要为每个候选时序动作提名生成对应的特征描述，作者称其为Boundary-Sensitive Proposal (BSP) 特征。对于每个提名，取其本身的时序区间作为 center region，再取开始节点和结束节点附近的一段区间作为 starting region 以及 ending region。对于每个区域，都在动作概率序列上的对应位置采样N个点，拼接后则得到一个非常简短的提名特征。BSP特征的构成示意图如上图(b)所示。

提名评估模块(Proposal Evaluation Module)

生成候选时序动作提名以及对应的提名特征后，作者采用提名评估模块-一个简单的MLP（多层感知机）模型去对每个提名的置信度分数进行估计。置信度分数越高，则说明该时序提名与真值的重叠IoU应当越高。

2.2.3.冗余提名抑制(Soft-NMS)

最后，需要对结果进行非极大化抑制，从而去除重叠的结果。具体而言，作者采用了 Soft-NMS 算法来通过降低分数的方式来抑制重叠的结果。处理后的结果即为BSN算法最终生成的时序动作提名。

参考博客：https://zhuanlan.zhihu.com/p/39327364

一只工程狮

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
BSN —《Boundary-Sensitive Network for Temporal Action Proposal Generation》概述

BSN—《BSN:Boundary-Sensitive Network for Temporal Action Proposal Generation》概述引言：本文介绍了来自于上交大林天威大佬（知乎有账号）发表自ECCV’18上的一篇论文，本文主要提出了一种自下而上的动作检测框架网络 BSNBSNBSN ，一下是对本文的大体概述，如有错误，欢迎留言指出。一、主要贡献：提出了一种基于 locallocallocal tototo globalglobalglobal 的新架构（BSN）来生成
复制链接

扫一扫