R-C3D: Region Convolutional 3D Network for Temporal Activity Detection

最新推荐文章于 2024-05-26 09:37:55 发布

铿锵的玫瑰

最新推荐文章于 2024-05-26 09:37:55 发布

阅读量945

点赞数

分类专栏：论文大全

本文链接：https://blog.csdn.net/LYKymy/article/details/101033915

版权

论文大全专栏收录该内容

162 篇文章 9 订阅

订阅专栏

Abstract

我们解决了连续的活动检测问题，未剪辑的视频流。这是一项困难的任务需要提取有意义的时空特征捕捉活动，准确定位开始和结束每次活动的时间。我们引入了一种新的模型，区域卷积3d网络（r-c3d），它使用三维全卷积网络对视频流进行编码，然后生成候选的时间区域（包含活动），最后将选定区域分类为特定活动。由于方案和分类管道之间的卷积特征共享，节省了计算量。整个模型采用端到端的训练，同时结合优化的定位和分类损失。r-c3d比现有的方法（在单个titan x maxwell gpu上每秒569帧）要快，并且在thumos'14上实现了最新的结果。我们进一步证明了我们的模型是一个通用的活动检测。通过评估我们对activitynet和charades的方法，框架不依赖于对特定数据集属性的假设。

Introduction

连续视频中的活动检测是一个挑战不仅需要认识，而且需要精确认识问题，及时定位活动。现有的最新方法将此任务视为分类检测，即对以滑动窗口[13、20、24、37]形式或通过外部“建议”生成机制[10、35]生成的时间段进行分类。这些方法有以下一个或多个主要缺点：它们不以端到端的方式学习深度表示，而是使用手工制作的特性[33，34]，或者深度vgg[28]、resnet[8]、c3d[32]等功能，分别学习图像/视频分类任务。这种现成的表示可能不适合本地化，在不同视频域中的活动，导致性能低下。此外，现有方法依赖于外部方案生成或穷举滑动窗口导致计算效率低下。最后，滑动窗口模型不能很容易地预测柔性活动边界。
在本文中，我们提出了一个活动检测模型来解决上述所有问题。我们的区域卷积3d网络（r-c3d）是端到端可训练的，通过联合优化方案生成和活动分类来学习与任务相关的卷积特征。在更快的r-cnn[21]目标检测方法的鼓舞下，我们计算完全卷积的3d convnet特征和提出可能包含活动的时间区域，然后在这些三维区域中汇集功能以预测活动类（图1）。与滑动窗口模型相比，方案生成阶段过滤掉了许多背景段，从而提高了计算效率。此外，建议是根据预先定义的锚段进行预测的，可以是任意长度，允许柔性活动边界的检测。
卷积神经网络（cnn）端到端学习的特征已成功地用于活动识别[14，27]，特别是在学习捕获时空特征的3d convnets（c3d[32]）中。然而，与传统的3d convnets[32]的使用不同，在3d convnets[32]中，输入是短16帧视频块，我们的方法应用沿时间维度的全卷积来编码gpu存储器允许的尽可能多的帧。因此，丰富的时空特征可以自动从更长的视频中学习。这些特征映射在活动建议子网和分类子网之间共享，以节省计算时间并共同优化两个任务的特征。
替代的活动检测方法[4，17，18，29，39]使用递归神经网络（rnn）对帧或视频块特征序列（例如vgg[28]，c3d[32]）进行编码，并在每个时间步预测活动标签。然而，这些rnn方法只能在固定的粒度上对时间特征建模。为了使用相同的分类网络来对变量进行分类将特定活动的长度提议扩展到我们将2D感兴趣区域（RoI）池扩展到3D，这为这些提议提取了固定长度的特征表示。因此，我们的模型可以利用任何时间粒度的视频特征。此外，一些基于rnn的检测器依赖于直接回归来预测每个活动的时间边界。如对象检测[7,31]和语义分割[2]所示，使用仅回归框架获得对象边界与“基于提案的检测”相比较差。
我们对R-C3D与最先进的技术进行了广泛的比较。使用三个公开的基准数据集的活动检测方法——Thumos'14[12]、ActivityNet[9]和Charades[26]。我们在thumos'14和charades上实现了最新的状态结果，并且在activitynet上仅使用c3d特性时改进了结果。综上所述，本文的主要贡献有：

端到端活动检测模型，具有可以检测任意长度活动的组合活动建议和分类阶段;
通过在网络的建议生成和分类部分之间共享完全卷积的c3d特征实现快速检测速度（比当前方法快5倍）；
对三种不同活动检测数据集进行广泛评估，以证明我们模型的普遍适用性。

Related Work

活动识别的历史很长，或者将修剪过的视频剪辑分类为固定的类别集。活动检测还需要在未剪辑和长视频中预测活动的开始和结束时间。现有的活动检测方法主要是使用滑动窗口生成片段并随后进行分类的模型。他们用活动分类器训练多个特征。这些方法中的大多数都有没有端到端训练的分段管道。此外，穷举滑动窗口的使用在计算上效率低下，在一定程度上限制了检测活动的边界。
最近，一些方法绕过了穷举滑动窗口搜索以检测具有任意长度的活动的需要。[4,17,18,29,39]通过使用RNN或LSTM网络对活动的时间演变建模并在每个时间步骤预测活动标签来实现这一点。deep-action提议模型[4]使用lstm对每16帧视频块的c3d特征进行编码，直接对活动片段进行回归和分类，而不需要额外的提议生成阶段。与此相比，我们避免了重复层，使用完全卷积的3d convnet编码了一个大的视频缓冲区，并且使用3d roi池允许在任意建议粒度下提取特征，获得了显著的更高的精度和速度。[41]中的方法试图通过提出分数金字塔分布特征来捕获多个分辨率的运动特征。然而，他们的模型不是端到端可训练的，而是依赖于手工制作的功能。
除了监督活动检测之外，最近的一项工作[36]通过学习基于镜头或统一抽样提议的注意力来解决仅用视频级别标签标记的数据的弱监督活动定位。[22]中提出的框架探讨了语言模型和活动长度模型在检测中的用途。时空活动定位[38,40]也在一定程度上得到了探索。我们只关注有监督的时间活动本地化。
未修剪视频中的活动检测与图像中的对象检测密切相关。我们工作的灵感，更快的R-CNN [21]，扩展了RCNN[7]和快速R-CNN [6]对象检测方法，包括RoI池和区域提议网络。与ssd[16]和r-fcn[3]等最新的目标检测模型相比，快速r-cnn是一种通用的、健壮的目标检测框架，在不同的数据集上部署了快速r-cnn，数据增强的工作量很小。与更快的r-cnn一样，我们的r-c3d模型也是以易于在各种活动检测数据集上部署为目标而设计的。它避免根据数据集的独特特征做出某些假设，例如ActivityNet [18]的UPC模型，它假设每个视频包含一个活动类。我们展示了我们的模型在三种不同类型的活动检测数据集上的有效性，这是对我们知识的最广泛的评估。

Approach

我们提出了一种区域卷积3D网络（RC3D），一种用于连续视频流中活动检测的新型卷积神经网络。如图2所示，网络由三个部分组成：共享的3D ConvNet特征提取器[32]，时间提议阶段和活动分类和细化阶段。为了实现高效计算和端到端训练，提议和分类子网共享相同的C3D特征映射。建议子网预测可能包含活动的可变长度时间段，而分类子网将这些建议分类为特定的活动类别或背景，并进一步细化建议段边界。一个关键的创新是将快速R-CNN中的2D RoI池扩展到3DRoI池，允许我们的模型以各种分辨率提取可变长度提案的特征。
我们使用3D ConvNet从给定的输入视频缓冲区中提取丰富的时空特征层次结构。已经表明，空间和时间特征对于表示视频和3D ConvNet编码都很重要以分层方式丰富的空间和时间特征。我们模型的输入是一系列具有维度的RGB视频帧，3d convnet的架构取自c3d架构在[32]中提出。然而，与[32]不同，我们模型的输入长度可变。我们采用C3D的卷积层（conv1a到conv5b），所以一个特征图作为此子网络的输出。我们使用激活作为建议和分类子网的共享输入。框架的高度（h）和宽度（w）分别取112，如下[32]。帧数l可以是任意的，并且仅受内存限制。
为了使该模型能够预测可变长度的建议，我们将锚段纳入到临时建议子网络中。子网根据锚定段预测潜在的建议段，并且指示预测的建议是否包含活动的二进制标签。锚段是以l/8均匀分布的时间位置为中心的预定义多尺度窗口。每个时间位置指定k个锚定段，每个锚定段具有不同的固定比例。因此，锚段总数为（L/8）*K。k个锚段存在于不同的时间位置，保证了方案预测的时间不变性。锚作为每个时态位置建议的参考活动段，其中最大标度k的数量依赖于数据集。
活动分类阶段有三个主要功能：1）从上一阶段中选择建议分段；2）三维感兴趣区域（3d roi）池以提取选定建议的固定大小特征；3）选定建议的活动分类和边界回归基于集合功能的建议。由提案子网生成的一些活动提议彼此高度重叠，并且一些提议得分低，表明置信度低。按照对象检测[5,21]和活动检测[24,39]的标准实践，我们采用贪婪的非最大抑制（NMS）策略来消除高度重叠和低置信度的提议。 NMS阈值设置为0.7。
3d roi池的输出被馈送到一系列两个完全连接的层。这里，提案按分类层分类为活动类别，这些提案的优化开始-结束时间由回归层给出。分类层和回归层也是两个独立的完全连接层，对于这两个层，输入来自前面提到的完全连接层。为了训练分类器子网，我们需要给每个方案分配一个活动标签。如果提议与基本真相活动的IOU重叠度最高，则分配一个活动标签，同时，IOU重叠大于0.5。背景标签（无活动）是分配给IOU重叠低于0.5且所有地面真相活动的提案。选择正负比为1:3的训练批次。
我们通过共同优化两个子网的分类和回归任务来训练网络。 softmax损失函数用于分类，平滑L1损失函数[6]用于回归。具体而言，目标函数由下式给出：
在我们的R-C3D模型中，上述损失函数适用于临时提议子网和活动分类子网。在提案子网中，二进制分类丢失Lcls预测提案是否包含活动，回归损失Lreg优化提案与基础事实之间的相对位移。在提案子网中，损失与活动类无关。对于活动分类子网，多类分类丢失Lcls预测提议的特定活动类，类的数量是活动数加上背景的一个。回归损失Lreg优化了活动和基本事实之间的相对位移。两个子网的所有四个损耗都是联合优化的。
R-C3D中的活动预测包括两个步骤。首先，提案子网生成候选提案并预测每个提案的起始时间偏移以及提案分数。然后通过NMS改进提议，阈值为0.7。在NMS之后，所选择的提议被馈送到分类网络以被分类为特定活动类别，以及预测的活动边界回归层进一步完善了提案。提议子网和分类子网中的边界预测采用中心点和段长度的相对位移的形式。为了获得预测的提议或活动的开始时间和结束时间，执行到等式2的逆坐标变换。
R-C3D接受可变长度输入视频。然而，为了利用快速深度学习库中的矢量化实现，我们用最后一帧填充最后几帧短视频，并将长视频分成缓冲区（仅受内存限制）。将NMS置于较低阈值（比mAP评估阈值小0.1）应用于预测活动以获得最终活动预测。

Conclusion

我们介绍了r-c3d，第一个端到端的时间提议分类网络，用于活动检测。我们对三个具有非常不同特征的大型数据集进行了评估，并证明该方法比基于3d convnets的现有模型能够更快、更准确地检测活动。在r-c3d中可以加入其他特性，以进一步提高活动检测结果。未来的一个方向可能是将r-c3d与手工设计的运动特征相结合，在不牺牲速度的前提下改进活动预测。

铿锵的玫瑰

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
R-C3D: Region Convolutional 3D Network for Temporal Activity Detection

Abstract我们解决了连续的活动检测问题，未剪辑的视频流。这是一项困难的任务需要提取有意义的时空特征捕捉活动，准确定位开始和结束每次活动的时间。我们引入了一种新的模型，区域卷积3d网络（r-c3d），它使用三维全卷积网络对视频流进行编码，然后生成候选的时间区域（包含活动），最后将选定区域分类为特定活动。由于方案和分类管道之间的卷积特征共享，节省了计算量。整个模型采用端到端的训练，同时...
复制链接

扫一扫

专栏目录