Local Compressed Video Stream Learning for Generic Event Boundary Detection

CclelouchCc

已于 2024-05-15 16:53:27 修改

阅读量639

点赞数 16

文章标签：深度学习

于 2024-03-25 19:54:29 首次发布

本文链接：https://blog.csdn.net/CclelouchCc/article/details/136814030

版权

本文提出了一种新的压缩视频表示学习方法，利用RGB、运动矢量、残差和GOP结构，通过SCAM模块细化P帧特征，结合LSTM捕获时间信息，有效解决了现有方法的时空冗余和计算需求。研究了GOP、SCAM、LSTM等概念，并探讨了光流、运动矢量和帧间预测在视频处理中的作用。

摘要由CSDN通过智能技术生成

前由

通用事件边界检测旨在定位将视频分割成块的通用、无分类的事件边界。现有的方法通常需要在将视频帧馈送到网络之前对其进行解码，这包含显著的时空冗余并且需要相当大的计算能力和存储空间。为了解决这些问题，我们提出了一种新的压缩视频表示学习方法，用于事件边界检测，该方法完全利用压缩域中的丰富信息，即，RGB、运动矢量、残差和内部图像组（GOP）结构，而无需完全解码视频。具体而言，我们使用轻量级的ConvNets来提取GOP中的P帧的特征，并且空间信道注意模块（SCAM）被设计为基于具有双向信息流的压缩信息来细化P帧的特征表示

贡献点

1.我们改进了原来的SCCE提出了新的SCAM，细化的P-帧功能与I-帧功能，使用双向信息流。
2.我们建议利用LSTM模块来捕获时间信息，以获得更好的性能。

名词解释

1.GOP（group of pictures）

Group of Pictures (GOP) 在视频编码中是一个重要的概念。在视频压缩编码中，视频帧被分为不同类型，而 GOP 则定义了这些不同类型的帧如何被组织在一起。一个 GOP 由连续的视频帧组成，包括以下几种类型的帧：

I-frame（关键帧）：Intra-coded picture，是一种独立的帧，它不依赖于其他帧来进行解码，通常包含完整的图像信息。在一个 GOP 中，通常第一帧是 I-frame。因为这样就能保证GOP不需要参考其他图像，可以独立解码。
P-frame（预测帧）：Predicted picture，这些帧通过对前向或者后向的帧进行预测来进行编码，它们依赖于之前的一帧（通常是 I-frame 或者 P-frame）来进行解码。
B-frame（双向预测帧）：Bi-directional predicted picture，这些帧通过对前后两帧进行预测来进行编码，它们依赖于之前和之后的帧来进行解码。

GOP 决定了这些不同类型的帧如何被安排组织在一起，以便进行有效的视频压缩。典型的 GOP 结构可能是 IBBPBBPBBP… 这样的顺序。通过合理地设计 GOP 结构，可以在保证视频质量的前提下，实现更高效的视频压缩和传输

2.空间信道注意力模块（SCAM）

空间信道注意模块（Spatial Channel Attention Module，SCAM）是一种用于计算机视觉领域的注意力机制，用于增强卷积神经网络（CNN）对空间特征的建模能力。SCAM的设计灵感来自于通道注意力模块（Channel Attention Module，CAM）以及自注意力机制。SCAM旨在通过学习空间特征之间的依赖关系，从而增强网络对不同空间位置的特征表示的区分能力。SCAM通常由以下几个关键部分组成：
1.空间特征提取：首先通过卷积操作提取输入特征图的空间信息。
2.通道注意力机制：对每个空间位置进行通道注意力计算，以获取该位置上不同通道特征的重要程度。
3.空间注意力融合：将通道注意力权重与原始特征进行相乘或加权求和，以获得增强后的空间特征表示。
通过引入SCAM模块，可以使得模型更加关注不同位置的空间特征，并且在训练过程中学习到适应特定任务的空间特征表示。这种模块的应用可以提升网络在图像分类、目标检测和语义分割等任务中的性能表现。

3.光流和运动矢量的区别

光流和运动矢量在视频处理领域中确实有一定的关系，它们都用于描述视频序列中的运动信息，但两者之间存在一些区别：

1.光流：光流是一种描述图像中像素运动的技术，通常用于估计相邻帧之间的像素位移。光流可以帮助我们理解图像中不同区域的运动情况，比如物体的移动方向和速度等。光流通常是基于像素级别的运动估计。

2.运动矢量：运动矢量是在视频编码中使用的概念，用于描述视频序列中帧与帧之间的宏块（像素块）的运动信息。运动矢量表示了一个宏块在当前帧中相对于参考帧的偏移量，用于帧间预测和差分编码，以实现视频压缩。

虽然光流和运动矢量都涉及到描述运动信息，但它们应用的领域和粒度不同。光流更多地关注像素级别的运动分析，适用于计算机视觉领域中的目标跟踪、光学流场估计等任务；而运动矢量主要用于视频编码中，通过描述帧间的宏块运动来实现视频压缩。

4.帧间预测

帧间预测是视频编码中的一种技术，用于利用相邻帧之间的相关性来实现视频压缩。在视频序列中，相邻帧之间通常存在很多重复的信息，例如静止背景、运动物体等，帧间预测就是利用这些重复信息来减少需要编码和传输的数据量。

具体来说，帧间预测通过以下步骤实现：

运动估计：在当前帧和参考帧之间进行运动估计，找到最佳的运动矢量来描述帧间的运动关系。这一步可以使用各种运动估计算法，如块匹配算法等。

运动补偿：根据得到的运动矢量，对参考帧中的像素进行移动，以估计当前帧的内容。这样可以生成一个预测帧，称为运动补偿帧。这时预测帧与当前帧之间还是存在差异。

残差编码：将当前帧与运动补偿帧之间的差异部分（残差）进行编码，而不是直接编码整个当前帧。由于残差通常比完整帧要小，这样可以显著减少需要传输或存储的数据量。

解码时重建：在解码端，通过解码得到的运动矢量和残差，结合参考帧，可以重建出原始的当前帧。

帧间预测利用了视频序列中相邻帧之间的空间相关性和时间相关性，通过运动估计和运动补偿来实现对帧间差异的编码和压缩，从而达到减小数据量的效果。这种技术是视频编码中常用的一种方法，有助于实现高效的视频压缩和传输。

5.Coviar

CoViar 是一种视频压缩和编码技术，它是一种基于深度学习的视频编码器。CoViar 采用了一种称为“基于内容的视频压缩”（Content-Aware Video Compression）的方法，利用神经网络对视频内容进行建模和预测，从而实现更高效的视频压缩和编码。

与传统的视频编码标准（如H.264、H.265等）不同，CoViar 不仅仅是基于像素级的压缩，而是通过深度学习模型学习视频内容的语义信息，以更好地理解和表示视频内容。这种内容感知的压缩方法可以更好地捕获视频中的重要信息，从而实现更好的压缩率和视觉质量。

Coviar首先将运动矢量和残差转换为图像等2D表示，然后直接将其输入2D CNN进行动作识别。该方法缺乏I帧和P帧之间的相互作用，因此获得较差的结果。DMC-Net通过基于运动矢量和残差重建光流来改进Coviar方法，并应用一个矢量来指导重建。然而，它仍然需要在训练阶段的光流。

6.LSTM（长短时记忆）

普通的RNN循环神经网络会随着传递信息，导致距离越远从而丢失的信息越多，甚至丢失关键信息。而LSTM通过时用一个记忆细胞，可以传递距离较远的信息。

长短期记忆（LSTM）是一种常用的循环神经网络（RNN）变体，用于处理序列数据。相比标准的RNN，LSTM在解决梯度消失和梯度爆炸等问题上表现更好，能够更有效地捕捉长期依赖关系。

LSTM模块通常由几个重要的部分组成，包括：

输入门（Input Gate）：控制是否将新的信息加入到细胞状态中。
遗忘门（Forget Gate）：控制细胞状态中哪些信息应该被遗忘。
输出门（Output Gate）：控制从细胞状态到隐藏状态的信息流。
细胞状态（Cell State）：负责传递信息。
LSTM通过这些门控机制来控制信息的流动，从而更好地处理长序列数据。在实际应用中，可以通过调整LSTM模块的参数和结构来适应不同的任务需求，如调节隐藏单元的数量、层数以及门控单元的激活函数等。

7.回溯技术

回溯技术是一种在计算机科学和算法设计中常用的方法，它通常用于在搜索或优化问题中找到最优解或满足特定约束条件的解。在视频编解码领域中，回溯技术通常指的是在运动估计和帧间预测中使用的一种技术，用于寻找最佳的运动矢量和残差，以便进行帧间压缩和解压缩。

具体来说，在视频编解码中，回溯技术可以应用于以下方面：

运动估计（Motion Estimation）：视频编码过程中，为了实现帧间预测，需要对当前帧与参考帧之间的运动进行估计。回溯技术可以通过搜索不同位置的像素来找到最佳的运动矢量，从而确定最佳的预测模式。

帧间预测（Inter-frame Prediction）：在 P 帧的编码和解码过程中，回溯技术可以用于寻找最佳的参考帧和相应的运动矢量，以便进行帧间预测和残差编码。

错误恢复（Error Resilience）：在视频传输和存储过程中，由于丢包或错误可能导致部分帧数据丢失。回溯技术可以用于在遇到错误时尽可能地从已有的数据中恢复丢失的部分，以保证视频的连续性和完整性。

框架

在这里插入图片描述
GOP首先由设计的空间信道注意模块（SCAM）编码以生成统一的视频表示。然后，使用时间对比模块来利用时间上下文信息来获得区分性特征表示。最后，使用分类器来生成准确的事件边界。

1.Encoding for GOP：首先，我们对视频进行压缩编码，视频转换为了GOP，GOP中包括I帧和P帧。我们使用卷积神经网络以解码的RGB图像作为输入来提取I帧的特征表示Xi，其特征是在大规模数据集上进行预训练（例如，ResNet 50在ImageNet上预训练）。同时，我们可以通过直接取初始运动矢量Mt和初始残差Rt，用ResNet-18类似地计算P帧的特征。总结来说，对I帧图像我们进行解码，然后在用运动矢量和残差来构造P帧。然而，这样的P帧不够精细。运动矢量记录了视频中场景和对象的运动模式，残差提供了补偿信息。它们都不包含场景的上下文信息。为此，我们设计了空间通道压缩编码器模块，该模块目的是通过在计算P帧的特征时集成参考I帧Xi的特征。
SCAM：提取出原来的Xi特征后，经过SCAM，细化了Xi的特征，从而调整大小的运动矢量Mt和调整大小的残差Rt来获得精细的P帧。如此反复，就能得到整个视频的所有帧数。具体思路如下：首先，将Xi和最初的运动矢量以及resize后的运动矢量送入PWC-net（选择PWC-Net是为了与以前的工作保持一致，并且因为运动矢量和光流信息之间的相似性，这使得它适合使用光流网络进行处理。PWC的核心思想是使用当前的光流估计来形变第二张图像的CNN特征。然后使用形变后的特征和第一个图像的特征来构造一个代价体）计算通道注意力。因为我们想要的是参考了I帧信息的P帧，这样才能表达出双向性，且P帧=I帧＋运动矢量+残差，因此通过运动矢量去指导网络细化I帧特征，进而能够达到计算P帧的特征时集成参考I帧Xi的特征的目的。如下公式所示：
在这里插入图片描述
**1.**我们在信道维度中将I帧特征xI、运动向量特征xM和调整大小的运动向量Mt（从Mt调整大小）连接在一起，以使用轻量级 PWC—Net [47]计算信道权重Wt_cha。
**2.**图为H x W x C，将单通道的H x W进行平均池化，如此反复得到1 x 1 x C的向量。
**3.**再经过一个simmoid进行归一化，得到各个通道的权重。
**4.**最后将Xi特征与通道权重相乘，得到具有通道注意力的Xi。
同理，空间注意力如下：
在这里插入图片描述
对单张图进行2d卷积后softmax，输出空间图上的占比，即空间注意力。之后再让具有了通道注意力的Xi乘上空间权重，公式如下：

2.Temporal Contrastive Module：在候选边界帧周围来回查看以确定事件边界，我们为每个候选帧构造局部帧包，并且每个局部帧包负责提供上下文信息以预测事件边界，即Local Frames Bag。在获得候选帧evl的局部帧包Bl之后，我们使用2层长短期记忆（LSTM）来学习时间关系。LSTM模块旨在发现帧之间的关系，并给出帧序列的高级表示。这时的帧包之中有了时间关系的特征。将这些帧直接分类到边界中可能由于非明确的线索而导致较差的性能。基于这种直觉，我们提出用局部帧包Be 1中的每个帧对的特征相似性来指导分类。我们发现，将通道分成几个组并独立计算每组的相似性是有益的，而不是对所有C维通道执行相似性计算。
在这里插入图片描述
在该示例中，分组相似性图St，G = 4的可视化。第一行指示在该局部序列中存在潜在边界，而第二行示出在该序列中没有边界。我们还可以观察到同一组之间略有不同的模式，这可能意味着每个组都在不同的方面学习。
得到如图5所示的时间自相似矩阵后，再用FCN对这个矩阵中的图进行像素级预测，因为矩阵中的一个位置代表的矩阵的帧，最后用一个分类头进行预测。

CclelouchCc

关注

16
点赞
踩
30

收藏

觉得还不错? 一键收藏
0
评论
Local Compressed Video Stream Learning for Generic Event Boundary Detection

为了解决这些问题，我们提出了一种新的压缩视频表示学习方法，用于事件边界检测，该方法完全利用压缩域中的丰富信息，即，RGB、运动矢量、残差和内部图像组（GOP）结构，而无需完全解码视频。该方法缺乏I帧和P帧之间的相互作用，因此获得较差的结果。在视频编解码领域中，回溯技术通常指的是在运动估计和帧间预测中使用的一种技术，用于寻找最佳的运动矢量和残差，以便进行帧间压缩和解压缩。帧间预测利用了视频序列中相邻帧之间的空间相关性和时间相关性，通过运动估计和运动补偿来实现对帧间差异的编码和压缩，从而达到减小数据量的效果。
复制链接

扫一扫