Boundary-Matching Network for Temporal Action Proposal Generation笔记

Boundary-Matching Network for Temporal Action Proposal Generation

Temporal Action Proposal Generation

TAPG的任务目的是需要我们从未剪辑的视频中判断动作开始和结束时间。相比于Temporal Action Detection,该任务不需要识别出具体的动作类别,只需检测开始和结束时间即可。

研究目的

本文的研究目的是时序动作检测,简单来讲,就是一段视频中,可以检测出该视频的具体边界时间(动作开始–动作结束)。传统的动作检测虽然能够很好的预测开始和结束边界,但是却得不到一个准确的边界置信区间(能预测到边界的大致区间,但是很难预测这个边界的具体区间),因此本文的目的就是为了能够预测到开始和结束边界的同时也能准确预测到该边界区间。

------------------------------------------------------------------------------BSN--------------------------------------------------------------------------------------

BMN的前身BSN

BSN分为三个模块。分别是Temporal Evaluation Module(TEM),Proposal Generation Module(PGM),Proposal Evaluation Module(PEM)。
**1.TEM(时序评估模块):**首先,经过双流卷积网络提取到的特征进行编码后,送入TEM,采用了三层时序卷积层,每一帧对动作开始,结束和进行进行概率预测,即一帧产生三种概率,开始、结束与正在进行的概率。
**2.PGM(候选提名生成):**在每一帧得到了上述的三种概率序列之后,开始和结束的概率序列有高有低,因此需要进行阈值筛选,(1)高于阈值的概率序列留下提名,低于阈值的概率序列放弃。(2)该时间节点的概率高于前一时刻以及后一时刻的概率(即一个概率峰值)留下提名。
提名方法:如下图所示,将starting与就近的ending进行结合,并且还有时长限制,即离starting过远的ending则不考虑将它们结合。从而就能够生成高概率的开始与结束序列。选出了高概率的序列以及生成对应的特征描述,该特征描述我们称其为Boundary-Sensitive Proposal (BSP) feature。(传统的目标检测方法通常基于滑动窗口的方式,在图像的不同位置使用固定尺寸的窗口进行分类,但这种方法在计算上非常耗费时间和资源。而BSP特征则为目标检测提供了一种更高效的方法。BSP特征通过将图像划分为一系列不同大小的区域块,并对每个区域块计算多尺度的特征表示。与传统方法相比,BSP特征可以更好地捕捉目标物体的边界信息,从而提高目标检测的准确性和效率。BSP特征的计算过程通常基于卷积神经网络(CNN)模型,通过在不同层次的特征图上进行多尺度的感受野计算,得到每个区域块的特征表示。这些特征表示可以被输入到后续的分类器或回归器中,以实现目标检测任务。)
在这里插入图片描述
**生成对应特征方法:**在已经确定好每一对starting-ending后,在动作概率序列上的对应位置采样N个点,拼接后则得到一个非常简短的提名特征。
在这里插入图片描述

**3.Proposal Evaluation Module(PEM):**利用PGM中得到的特征,我们采用提名评估模块-一个简单的MLP(多层感知机)模型去对每个提名的置信度分数进行估计,置信度分数高的则预测正确,分数低的则放弃。
**4.后处理:**对于得出的置信度分数,有些候选框(starting-ending)有可能会发生重叠,例如第一帧—第十帧是一个候选框,第一帧—第五帧也是一个候选框,两个候选框的置信度分数都很高,那么就需要去除其中一个框,这里使用的方法是非极大值抑制(Non-Maximum Suppression,NMS)。NMS 的基本思想是对于每个类别的检测结果,按照其置信度(confidence)进行排序,然后从置信度高到低逐个处理每个候选框,对于当前处理的候选框,去除与其交并比(Intersection over Union,IoU)大于某个阈值的其他候选框。这样可以确保最终保留的候选框之间不会有太大的重叠,同时选择置信度最高的候选框作为最终的检测结果。

整体框架如下图所示:(a)是对视频进行特征提取,用双流卷积网络进行提取。提取到特征向量后,由本文提出的一个BSN(b)来对提取出的特征进行行动开始与结束的预测,得到多对starting-ending及BSP特征。在经过两个FC得到置信度分数,最后经过一个后期处理(Soft-NMS),将交并比高的框的置信度分数降低达到去除重复结果的目的。
在这里插入图片描述
------------------------------------------------------------------------------BSN--------------------------------------------------------------------------------------

------------------------------------------------------------------------------BMN-------------------------------------------------------------------------------------

BMN

针对于上述提出的BSN,有以下缺点:
1.效率不够高:提名特征提取以及置信度评估的过程是对每个时序提名逐个进行的,虽然可以在一定程度上做并行加速,但总体上还是效率比较差;
2.语义信息丰富性不足:为了保证提名特征提取过程的效率,BSN中所设计的32维提名特征是比较简单的,但也限制了置信度评估模块从特征中获得更加丰富的语义信息;
3.多阶段:BSN方法是一个多阶段的方法,没有将几部分网络联合优化。

为了弥补缺点,提出了BMN,BMN相对比BSN做出了以下贡献:
1.提高效率:能够并行化提取特征和对置信度进行评估;
2.提取了相较于BSN丰富的语义信息;

整体框架

在这里插入图片描述
首先生成提名,同时通过生成的提名构建整体并行化的置信度,最终两者融合,生成带有置信度的提名。可以看出,BMN主要包括3个模块。基础模块包括两个1维卷积层,其作用是作为backbone,处理输入的特征序列,并输出被后续两个模块所共享的时序特征序列。时序评估模块包含两个1d卷积层,输出开始概率序列和结束概率序列,用于后续的提名生成。提名评估模块,则包含BM layer,一个3d卷积层以及3个2d卷积层,最终输出为BM置信度图。

并行框架

在这里插入图片描述
如上图所示,用双流卷积网络提取出特征后,生成了一个叫做BM置信图的map,在这张map里,可以直接观测到预测的提名及其置信度分数大小,相比于BSN,先生成特征,后逐个生成置信度分数,极大地提高了效率。下面我们讲讲这张BM置信度是如何生成的。
大致思路如下,提取出了序列特征后,我们通过一系列运算让视频特征序列生成的提名放到一个矩阵上,让矩阵整体的表示各个提名的特征,称为BM特征图。之后再通过卷积生成BM置信图。
在这里插入图片描述

其中核心点在于如何从特征序列生成特征图,首先,通过特征序列得出了多个提名后,每个提名进行N点采样,但是采样方法和BSN中不同,具体采样思路如下:

在这里插入图片描述
1.如图所示中的一个提名,进行了N=4的采样。构建了一个w(i,j)的权重矩阵(这个矩阵能够提取上下帧信息0.66,0.33具体方法见下图),和权重矩阵和C维长度为T的序列进行点乘,就能得到这个提名的丰富特征信息bm(这里说明了为什么相较于BSN提取的特征信息更丰富)
2.通过将采样矩阵进行DxT的延展,就能得到所有提名的W权重矩阵,W与特征序列点乘从而得到整体BM特征图。(个人理解就是构成一个矩阵DxT,然后矩阵里的每一个元素就是w(i,j),从而实现延展)

提取上下文信息具体方法:

在这里插入图片描述
floor()是向下取整函数,dec是取小数。该式子的意思是如果采样点N采样的位置不是整数点,取其左右的两个整数点,并为左右两点分配相应的权重从而根据权重提取左右两帧的特征,从而实现提取了相较于BSN丰富的语义信息。

从BM特征图生成BM置信图

我们得到BM特征图的维度是CxNxDxT,采用了3D卷积层来消除采样维度CxN ,再通过几个2D卷积层来生成最终的结果。此处的2D卷积实质上是获得了每个时序提名 周围几个提名的context信息,丰富了时序提名的context信息。最后,我们同样采用了Soft-NMS方法来去除了冗余结果。

  • 6
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值