时序动作检测《BSN: Boundary Sensitive Network for Temporal Action Proposal Generation》

胖胖大海

已于 2022-03-04 09:06:27 修改

阅读量3.2k

点赞数 4

分类专栏：时序动作检测深度学习动作识别文章标签：时序动作检测 SSAD BSN BMN Two-Stream

于 2021-07-23 20:07:48 首次发布

本文链接：https://blog.csdn.net/cxx654/article/details/119043167

版权

深度学习同时被 3 个专栏收录

83 篇文章

订阅专栏

动作识别

5 篇文章

订阅专栏

时序动作检测

4 篇文章

订阅专栏

时序动作检测SSAD《Single Shot Temporal Action Detection》_程大海的博客-CSDN博客_时序动作检测

时序动作检测《BSN: Boundary Sensitive Network for Temporal Action Proposal Generation》_程大海的博客-CSDN博客

时序动作检测《BMN: Boundary-Matching Network for Temporal Action Proposal Generation》_程大海的博客-CSDN博客

《Non-local Neural Networks》个人总结理解_程大海的博客-CSDN博客

时序动作检测《BSN++: Complementary Boundary Regressor with Scale-Balanced Relation Modeling for ……》_程大海的博客-CSDN博客

温馨提示：本文仅供自己参考（勿捧杀），如有理解错误，有时间再改！

时序行为检测

两段式目标检测方法如Faster RCNN先使用RPN网络生成proposal，然后再使用Fast RCNN网络对proposal进行精炼，得到更加准确的结果。两段式时序行为检测方法跟两段式目标检测方法类似，先生成时序行为的proposal候选片段，然后再使用时序动作识别方法对proposal进行行为分类。所以生成的proposal的准确性严重影响时序行为检测的性能，高质量的proposal应该具备两个重要属性：

1、proposal对于GT的召回率和重合度要足够高

2、在实现高的召回率和重合度的前提下，使用的proposal要足够少

一个高质量的proposal方法应该能够灵活的生成不同时序长度，且边界准确的proposal，同时给出proposal中包含动作行为的置信度，这和Faster RCNN网络中的RPN思想基本一致。

BSN使用local to global局部到全局的方式生成高质量的proposal，首先通过局部连接的方式组合具有高置信度的开始和结束位置，构成可能的proposal，然后使用proposal-level特征全局检索过滤高置信度的proposal，BSN算法一共有三步：

Step 1：BSN在视频片段的每个时间位置都预测输出当前时间点属于一个动作的开始概率、结束概率，以及当前时间点属于某个动作的概率，生成一个<start prob, end prob, action prob>的时间序列作为局部信息。

Step 2：使用自下而上的方式直接组合具有高预测概率值的开始点（如下图中红色实线的2个峰值点）和结束点（如下图中蓝色虚线的1个峰值点），从而可以生成不同长度不同边界准确性的proposal（如下图中2个开始点和1个结束点组成2个可能的proposal）。

Step 3：BSN利用proposal内部和周围的action prob组成的特征，通过评估proposal是否包含action的置信度来进一步从step 2的输出结果中检索具有高置信度的proposal。这些proposal-level的特征为更好的评估提供了全局信息

问题定义

视频定义：

其中，表示视频中的某一帧，表示视频的总帧数。

视频action的GT标签定义：

其中表示视频中的一个动作片段，分别表示动作片段的开始位置和结束位置，表示视频中包含的标注动作GT的数量。

不同于时序动作识别和时序动作检测任务，时序动作proposal生成方法并不关注生成的proposal中的具体action类别，只关注proposal中是否包含action，所以是一个二分类问题，和Faster RCNN的RPN模块类似，RPN只识别出可能包含目标物体的区域，然后丢给下一级网络去进一步确定目标物体的类别以及目标的准确位置。

视频特征提取

BSN算法中使用Two-Stream双流网络提取视频特征，双流网络一路提取图像的空间特征，一路提取光流的时序运动特征。在视频片段的每个位置提取图像特征和光流特征，表示如下：

其中，表示视频中的第 t 帧图像，表示以视频第 t 帧图像为中心的连续图像计算的光流，然后将和分别输入到Two-stream双流网络提取特征，然后将双流网络的两路输出特征进行concat融合得到。对视频的每个时间位置都计算得到和，并提取特征，从而得到视频的时序特征，BSN算法在进行视频特征提取时，为了降低计算量，采用步长为的间隔采样，所以采样的特征序列总帧数为。在视频特征提取方面，BSN算法和上一篇中讲到的SSAD算法有较大区别，具体参见上一篇博客。

BSN算法主要模块

Temporal Evaluation Module（TEM）

TEM是一个三层的时序卷积网络，网络的输入是上一步视频特征编码中使用双流网络提取的时序特征，然后TEM预测输入的时序特征每个时序位置是一个动作开始点的概率，结束点的概率，以及这个时序位置属于一个动作的概率，从而输出starting开始点的时序概率，ending结束点的时序概率，以及每个点是否属于一个动作的时序概率，starting、ending以及action的概率预测都是二分类问题。网络结构是Conv(512; 3; Relu) -> Conv(512; 3; Relu) -> Conv(3; 1; Sigmoid)，最终输出3通道表示计算3个概率值。

TEM输出的三个概率序列表示如下：

Proposal Generation Module（PGM）

PGM组合TEM模块输出的具有高置信度概率值的starting开始点和ending结束点，生成可能的proposal片段，然后基于各个proposal中各个时间序列位置的动作概率构造BSP特征。

筛选开始时间和结束时间点：

根据starting序列概率选择开始时间点:选择的点或者峰值点（比两边都大的凸起点）。Ending时间点采用同样的方式选择。

构造候选proposal：

将上一步选择出的开始时间点和结束时间点进行两两组合，并且组合的时间点满足设置的视频最大和最小长度参数，。其中是训练集中标注的动作GT的最大和最小长度大小。

候选proposal特征提取：

上一步提取的候选proposal表示为，将之间的片段定义为中间区域，将以为中心的片段定义为，将以为中心的片段定义为。在片段内的动作概率序列上采用线型插值方式均匀采样16个特征点得到，在和片段内的动作概率序列上采用线型插值方式分别均匀采样8个特征点得到和。将采样的特征点进行concat得到这个proposal的BSP特征。

Porposal Evaluation Module（PEM）

PEM使用多层感知机（多个全连接层）对PGM中每个候选proposal提取的BSP特征进行处理，得到候选proposal与GT的重合置信度。到目前为止，一个候选proposal就可以被表示为下式：

其中，表示这个proposal的开始位置和结束位置，表示这个proposal开始和结束位置的概率置信度，表示这个proposal与GT的重合置信度。在模型预测阶段，使用这些置信度来共同决定模型的预测输出结果。

模型训练

Temporal Evaluation Module（TEM）训练

训练数据构造：

在特征序列上F使用长度为的不重叠滑窗，窗口表示为。是窗口内的特征序列，是窗口内的GroundTruth实例，每个GT实例表示为, 表示GT实例的开始位置和结束位置。定义GT开始位置区域、结束位置区域以及动作实例区域如下：

对于窗口内的序列特征，TEM网络输出每个序列位置的开始概率、结束概率、动作概率，定义序列位置的区域表示如下：

是特征序列中连续两个snippet在原始视频帧上的时序间隔，这个时序间隔我理解就是提取视频特征时使用的采样间隔。分别计算每个与所有的IoP比率的最大值得到作为监督信号，IoP定义为snippet区域与某一区域的重叠部分比上snippet区域的比值。时间点的特征可以表示如下：

其中，是时间点的开始、结束以及动作概率，是监督信号，分别是与区域的IoP最大的所对应的IoP值。就是TEM的输出结果以及监督信号，其中是TEM的预测输出结果，是监督信号。在训练TEM模块时，通过定义一个IoP的阈值，将的结果减去IoP阈值然后使用sign符号函数得到[0,1]的监督信号。比如有一组，IoP的阈值设为0.5，那么训练的监督信号标签为。