Temporally Consistent Unbalanced Optimal Transport for Unsupervised Action Segmentation-CSDN博客

本文链接：https://blog.csdn.net/CclelouchCc/article/details/139266844

目的

动作分割任务可以被公式化为密集分类问题，该任务的目的是将视频中的每个帧被分配给动作类，从而能够实现动作分割。本文创新点在于通过融合不平衡传输+时间一致性来将视频帧和动作类耦合成一个矩阵T*，如下图所示
在这里插入图片描述

创新点

1.提出了一种新的办法来对长且未修剪的视频进行动作分割。基于解决最优传输问题。通过将时间一致性编码到Gromov-Wasserstein问题中，我们能够从视频帧和动作类之间的噪声亲和力/匹配成本矩阵中解码时间一致的分割，即ASOT（Action Segmentation Optimal Transport）。与以前的方法不同，我们的方法不需要知道视频的动作顺序来实现时间一致性。此外，我们得到的（融合）Gromov-Wasserstein问题可以在GPU上使用投影镜像下降的几次迭代来有效地解决。（为什么会提出这个ASOT，其实之前有和这个类似的工作，被称为TOT方法，论文名称为Unsupervised Action Segmentation by Joint Representation Learning and Online Clustering，但这个方法存在几个缺点：1.对伪标签强制执行平衡分配假设，这可能不适用于动作分割数据集中遇到的长尾动作类分布。即在一个数据集或样本集合中，有些动作类别的样本数量非常少，而另一些动作类别的样本数量非常多的情况，对伪标签强制执行平衡分配假设，这是不友好的。2.没有解决时间一致性问题。3.假设所有视频的单一固定动作排序。在实际的视频数据集中，不同视频之间可能会有不同的动作序列或顺序，即使是相同动作也可能以不同的顺序出现。因此，强制所有视频都遵循相同的动作排序可能会限制模型对于动作序列变化的建模能力，从而影响其在处理真实世界数据时的表现。）

2.我们证明了我们的方法在无监督学习环境中的有效性，我们的方法用于生成用于自我训练的伪标签。我们在Breakfast、50-Salads、YouTube Instructions和Desktop Assembly数据集上评估了我们的分割方法和无监督学习管道，为无监督视频动作分割任务提供了最先进的结果。

时间一致性

时间一致性是指一系列事件或数据在时间上的连续性和一致性。在视频分析领域，时间一致性涉及到视频中不同帧之间的关联性和顺序性，以及视频中动作或事件发生的时序特征。

对于视频数据而言，时间一致性意味着在视频帧中连续的动作或事件应该按照它们在真实世界中发生的顺序被准确地表达和识别出来。这包括了识别出视频帧中的动作开始和结束的时间点，以及在整个视频序列中动作发生的顺序和持续时间。因此，确保时间一致性对于准确地理解视频内容和进行动作分割非常重要。

在视频分析任务中，考虑时间一致性意味着我们需要关注视频帧的时间戳、动作的持续时间以及动作之间的顺序关系，以便更准确地识别和分割视频中的动作内容。通过将时间一致性编码到算法和模型中，可以更好地捕捉视频数据的时序特征，从而提高视频分割和动作识别的准确性和一致性。

最优传输（Optimal Transport,OT）问题

最优传输实际上是一个课题，其主要是研究分布到分布之间的最短距离（Wasserstein距离）。举个例子，现状有m堆土，n个坑，需要将m堆土填到n个坑中，每堆土怎么移动才能让代价最小(即解最优)，这时候求出它的代价矩阵即可。通常用OT方法来生成用于自训练的伪标签（图像帧指向运动类别）。

OT具体的发展

（1）Kantorovich Optimal Transport：实际上就是传统的OT问题，OT实际上就是寻找一个最优的代价矩阵，能够使得A空间映射到B空间上。即以下公式：C代表了相似性度量，P代表了权重，即若i点到j点的相似性高，则需要的代价就越小，权重就越应该大，从而求出最优代价矩阵。
在这里插入图片描述
（2）Wasserstien Distance：想要求A空间映射到B空间的最优解，最优解=代价矩阵*解矩阵。以下是经典的例子

（3）Gromov-Wasserstien Distance：上部分说的wasserstien距离有一个缺陷，那就是如果两个分布之间并没有直接关系（专业说法叫不在同一个空间），我们是很难获得两个分布之间的代价矩阵 M 的。上边这个例子是讲的搬运沙子，那么无论沙堆还是沙坑，直接的关系就是都使用沙子的重量来衡量，而如果两个分布间没有直接的关系，或者代价矩阵及其难求解，由此引出Gromov-Wasserstien Distance。对第2点进行补充说明：得出A和B空间自己的代价矩阵后，在A和B内分别比较不同空间（i,j）点在代价矩阵CA和CB的距离，通过度量CA和CB的差异来找到最佳代价矩阵，从而和解矩阵逐元素相乘得到最优解。
在这里插入图片描述
（4）Fused GW Optimal Transport（FWG）和Unbalanced Optimal Transport：
**FWGWOT：**就是Wasserstien Distance和Gromov-Wasserstien Distance的融合，通过分配权重α来实现它们的融合，即

Unbalanced Optimal Transport：是一种最优输运理论的扩展，旨在处理在两个不同分布之间进行输运时存在不平衡情况的问题。在传统的最优输运问题中，通常假设两个分布具有相同的总质量，因此可以通过一个成本矩阵来找到两个分布之间的最优映射关系。然而，在实际应用中，往往会遇到两个分布的总质量不相等的情况，这就引入了不平衡最优输运的问题。不平衡最优输运考虑的是如何以最小的成本将一个分布转移到另一个分布，同时考虑到两个分布的质量不匹配的情况，将其不平衡问题最后转化为平衡问题。因此引入惩罚项以平衡两个分布之间的差异。动作分割任务里引入不平衡运输问题的理由是：帧-动作类别本身就是个不平衡问题，因为不可能一个视频里存在所有的动作类别，即不可能有那么多沙坑去装沙子，一个视频里可能只存在几个动作类别，因此可以得出动作分割任务本身就是个不平衡运输问题。
引入惩罚项本质就是在FWG上加了一个KL散度，对于KL散度，其中 q(x) 是近似分布，p(x) 是我们想要用 q(x) 匹配的真实分布。直观地说，这衡量的是给定任意分布偏离真实分布的程度。如果两个分布完全匹配，那么图片，否则它的取值应该是在 0 到无穷大之间。KL 散度越小，真实分布与近似分布之间的匹配就越好。总的来说，对于时间动作分割任务，平衡的分配需要将每个视频帧分配给动作，并且此外，每个动作在视频的帧中被平等地表示。虽然分割任务需要将每个视频帧分配给动作，但并非每个动作都可能发生在视频中。我们并不强制每个动作都均匀地表示在视频帧上。相反，我们使用λ > 0加权的KL发散惩罚来将视频内观察到的动作分布规则化为均匀性。
在这里插入图片描述

（5）Action Segmentation Optimal Transport（ASOT）：这就是本文的创新点：ASOT。首先，我们解释了如何使用最佳传输从视频帧和动作之间的（噪声）成本矩阵中提取时间一致的分割。这些成本矩阵很容易使用学习的视频帧和动作嵌入来计算。即，从成本矩阵中提取时间一致性。这种GW公式惩罚具有低时间一致性的耦合。具体如下图所示，r∈（0,1）。在这里插入图片描述
为什么要引入这惩罚函数呢？以下图c为例，没有引入时间一致性时，会发现在相邻帧内，有可能会出现边界帧，但是显然不符合常理，因为我们知道一个事件接着另一个事件在短期的帧内，是不会出现变化的，更多的是图b这种，因此就需要引入时间一致性，当相邻帧内出现不同运动类的情况时，增大它的代价矩阵，属于同一类时，则置零，代价矩阵不变。
在这里插入图片描述

框架

在这里插入图片描述
下面来解释该框架，Videos经过编码器里的特征提取器提取特征后，变了帧嵌入和动作嵌入，然后经过上文说的ASOT模块，求出最优解，即边界帧-动作类，之后将这些边界帧作为伪标签，这些伪标签不用来更新伪标签所对应的参数，而是只更新编码器的参数从而用来训练编码器。
我们的无监督问题涉及通过最小化帧/动作嵌入相似性和ASOT计算的（软）伪标签之间的交叉熵（CE）损失来学习视频帧编码器的参数θ。具体地，如下公式所示，实际上就是softmax，Pij表示第i帧属于第j个动作簇的概率，X是帧嵌入，A是动作类嵌入。
在这里插入图片描述
最终的交叉熵损失如下公式所示，