MAE-GEBD:Winning the CVPR’2023 LOVEU-GEBD Challenge

最新推荐文章于 2024-07-25 11:12:43 发布

CclelouchCc

最新推荐文章于 2024-07-25 11:12:43 发布

阅读量1.4k

点赞数 51

文章标签：笔记深度学习

本文链接：https://blog.csdn.net/CclelouchCc/article/details/136644458

版权

本文介绍了在GEBD任务中，通过集成MaskedAutoencoders、半监督伪标记、软标签、TSM和Transformer，以及创新的分割对齐策略，提升视频边界检测性能。实验涉及易难样本分离和模型融合，展示了多种技术的有效性。

摘要由CSDN通过智能技术生成

贡献点

1.我们的方法主要采用了在GEBD任务上微调的Masked Autoencoders的集成，作为与其他基本模型的自监督学习器。
2.我们还使用半监督伪标记方法，以充分利用丰富的未标记Kinetics-400数据进行训练。
3.我们提出了一种软标签的方法，部分平衡的积极和消极的样本，并减轻在这项任务中的模糊标记的问题。
4.实现了一个棘手的分割对齐策略，以将我们的模型预测的边界细化到更准确的位置。

整体框架

在这里插入图片描述
该框架分为三个模块。第一个是MAE模块，第二个是用Temporal Self Similarity和transformer模块，第三个是Contrastive模块，下面一一介绍。

MAE（Masked Autoencoders）

掩码自编码器（MAE）是可扩展的计算机视觉自监督学习器。在预训练过程中，对一张图片的某些patch进行mask操作。Encoder应用于未进行mask的patch。在Encoder之后引入mask token，全套编码过的patch和mask的token由一个小型解码器处理，该解码器以像素为单位重建原始图像进行预训练。，，，
在这里插入图片描述

同时，对于每个像素点，Pixelwise MSE Loss计算预测值和目标值之间的差异，并将差值平方后求取平均值。这样做的目的是使模型更加关注预测结果与真实值之间的细微差异，较大的差异会对损失产生更大的影响。更好地训练video数据。额外解释一下为什么原来video是40 x 224 x 224，经过encoder后就变成了40 x 1536。对于图像数据而言，其数据格式为[H, W, C]是三维矩阵明显不是Transformer想要的。所以需要先通过一个Embedding层来对数据做个变换。在预训练阶段，对于一个40 × 224 × 224的视频，我们得到了20 × 14 × 14个patch ，patch size为2×16×16，且图片是三维的，所以向量长度为2×16×16 x 3=1536。
进行数据预处理后，再经过encoder处理视频序列，经过全连接层输出，这里还引入了MSE Loss和BCE Loss，BCE Loss容易理解，因为视频分段本身就是个二分类任务，引入BCE Loss（交叉熵损失）可以更好地调参训练模型，这里的MSE Loss作者的解释是MSELoss可以补偿BCELoss带来的潜在梯度不足。在MAE-GEBD的单个模型中，添加MSELoss标头可以稳定地提高0.4%。BCELoss通常用于二分类任务中，它通过测量模型输出与真实标签之间的交叉熵来计算损失。然而，当预测输出与真实标签之间的差异较小时，BCELoss的梯度可能较小，导致训练过程中梯度更新不够充分，甚至出现训练不稳定的情况。相比之下，MSELoss计算的是预测输出与真实标签之间的平方误差，这意味着即使差异较小的地方也会有不错的梯度，这样在训练过程中能够更好地指导参数的优化。因此，在某些情况下，使用MSELoss作为辅助损失函数，或者在训练过程中结合使用BCELoss和MSELoss，可以一定程度上弥补BCELoss带来的梯度不足问题。

TSM

第二个模型是使用transformer和TSM（时间自相似矩阵），当video数据embeding后进入encoder，然后对序列生成时间自相似矩阵，再由decoder的对其进行边界预测，同时损失函数在原来的BCE Loss上还增加了一个焦点损失策略（Focal）。
在这里插入图片描述
焦点损失策略：我们认为GEBD任务的难度与每个视频的边界数量高度相关。更多的边界意味着该视频的内容更复杂，并且更难以检测边界位于何处。有些视频可能会被切割成10个以上的片段。为了使模型更容易解决边界较多的情况，我们在模型损失函数中加入了焦点损失，使模型更关注那些困难的问题。我们为注释中具有更多边界的视频分配更高的损失权重，具体公式如下：
在这里插入图片描述
当某个样本的边界数量大于10时，就会增大BCE loss从而重点关照这个样本。反之。则减小BCE损失，次重点关照该样本。

对比学习（Contrastive Learning）

在对比学习中，正样本被吸引到一起，而负样本被排斥。尽管它的想法简单得令人沮丧，但它在自监督学习领域表现出了明显的性能增益，从而产生了开创性的作品。我们的对比学习模型的输入特征是Kinetics预训练的双流TSN特征和SlowFast特征。
在这里插入图片描述
当我们计算对比损失项时，我们只使用正/负样本，忽略中性样本。令ik和jk分别表示第k个正/负样本，并且m和n表示正/负样本的数量。然后，对比损失项Lcontra定义如下：
对比损失被简单地计算为自相似矩阵中的蓝色区域和黄色区域的平均值之间的差值。（为什么这样计算呢，因为我们已经拥有了伪标签（部分边界帧），那如果是边界帧的话，黄色区域与蓝色区域的差值应该比非边界帧的差值大，因此通过这个黄色区域-蓝色区域的差值可以用来调参，从而训练模型）。

Segmentation Alignment（分割对齐策略）

针对视频分段边界的预测，有一些限制条件和评估指标需要考虑：
1.视频的第一个和最后0.3秒中不会有分段边界，这意味着在进行分段边界预测时需要避开这个时间范围。
2.在计算F1分数时，如果预测的边界与地面实况边界存在一定范围内的重叠，则将预测计为真阳性。这个重叠范围是根据视频持续时间的5%来确定的。
3.为了使预测的边界更有效，希望边界之间的重叠尽可能小。因此，预测的边界也应该至少具有一定的时间跨度，并且远离视频的起始和结束部分。
4.视频的持续时间为10秒，因此需要将预测边界稍微移动，以确保对所有预测边界 x 满足 0.8s < x <9.2s，并且相邻的预测边界之间的间隔大于1秒。

伪标签

我们使用所有标记的训练集和验证集训练了一个相对较弱的模型，并使用弱模型来标记未标记的测试集数据。我们把从弱模型中得到的测试集的标注称为“伪标签”。然后，我们使用训练集和验证集的所有地面真值以及测试集的所有伪标记来训练更强的模型。我们伪标记了更多来自Kinetics 400的数据，这些数据不在Kinetics-GEBD数据集中，我们希望更多的伪标记可以进一步提高模型性能。

实验

Dataset and Feature

我们混合了Kinetic-GEBD原始训练集（约18 k个样本）和验证集（约18 k个样本），并将这些样本随机分为10份。在训练过程中，这10个折叠中的9个折叠的地面实况沿着以及所有测试集伪标签（总共约50 k个样本）用作我们的训练集，剩余的1个折叠数据用作我们的验证集。我们重复这个训练过程10次，同时轮流改变我们的验证集。我们基于MAE的模型的特征是从MAE微调阶段获得的。我们的对比学习模型的输入特征是Kinetics预训练的双流TSN特征和SlowFast特征。

Easy-Hard sample splits（难易样本分割）

在训练基于MAE的模型时，我们将所有样本分为两个子集。首先，我们训练了三个基本的基于MAE的模型。使用这些基本模型，我们检测了所有样本的边界，包括测试集中的样本，并得到了每个视频样本的分数曲线。如果分数曲线是平坦的，我们认为这个视频是一个硬样本，而如果曲线是颠簸的，我们认为它是一个容易的样本。然后，我们分别用简单样本和硬样本训练了两个不同的模型。最后，我们使用易样本模型来预测测试集中的易样本，使用硬样本模型来预测测试集中的硬样本。实验表明，无论是简单样本模型还是硬样本模型，在只集成基于MAE的模型时，都能稳定地提高性能。然而，当集成基于MAE的模型和对比学习模型时，只有基于易样本MAE的模型可以进一步提高整体F1分数，而硬样本模型则没有帮助。

Ensemble

我们使用不同的结构训练了三种模型，基于MAE的模型，对比学习模型和直接预测模型。对于基于MAE的模型，我们训练了2个带有伪标签的模型，以及1个没有这种策略的模型。正如我们在4.2中所解释的，我们还训练了1个硬样本模型和1个易样本模型。对于对比学习模型和直接预测模型，如4.1所示，我们将所有数据分成10倍，通过两种不同的网络结构总共得到20个模型。总的来说，我们得到了25个模型，以及测试集中每个样本的25个预测分数。然后我们对其中的24个进行加权求和，除了仅在硬样本上训练的基于MAE的模型。对比学习和直接预测模型的权重为0.0385，基于MAE的模型的权重为0.0575。

CclelouchCc

关注

51
点赞
踩
33

收藏

觉得还不错? 一键收藏
1
评论
MAE-GEBD:Winning the CVPR’2023 LOVEU-GEBD Challenge

进行数据预处理后，再经过encoder处理视频序列，经过全连接层输出，这里还引入了MSE Loss和BCE Loss，BCE Loss容易理解，因为视频分段本身就是个二分类任务，引入BCE Loss（交叉熵损失）可以更好地调参训练模型，这里的MSE Loss作者的解释是MSELoss可以补偿BCELoss带来的潜在梯度不足。更好地训练video数据。在训练过程中，这10个折叠中的9个折叠的地面实况沿着以及所有测试集伪标签（总共约50 k个样本）用作我们的训练集，剩余的1个折叠数据用作我们的验证集。
复制链接

扫一扫