最新综述:视频数据的无监督域适应

5c281d48115c733349037758c730d3a5.gif

©作者 | 许悦聪

单位 | 新加坡科技研究局

研究方向 | 视频迁移学习、领域自适应

深度学习随着大数据的不断产生在日常生活生产中发挥着愈来愈重要的作用。针对视频分析的深度学习方法更是随着各类大型数据集和大型预训练模型的推广,以及在安防、自动驾驶、智慧医疗等领域的广泛应用,而有了深刻且大幅的发展。但是,当前深度视频分析仍然极度依赖大型带标签的训练数据集进行模型训练和检测。在进行对模型效果检测的时候,我们常假定我们的测试集的数据分布与我们训练集的数据分布是高度相似甚至是一致的。

然而这种假定在实际模型应用中往往并不成立。从大型数据集组建的训练集(或源域)与从实际生产生活数据中组建的测试集(或目标域)往往有着不可忽略的差异(即域分布差异)。域分布差异导致在源域训练的模型在目标域上的表现差强人意,进而无法被运用到实际数据和实际场景中。为了解决由于域分布差异带来的对模型表现的负面影响,深度域适应任务被提出。

其旨在通过一定的方法找到源域与目标域之间的相似之处,降低源域与目标域之间的域分布差异,实现域间分布对齐,从而使一个在源域上训练的深度模型能被更好的运用在目标域上,或者说能使一个深度模型将其在源域中获取的只是迁移并运用在目标域中,增强模型的可迁移性及泛化能力。同时,由于数据标注极耗人力与物力,在实际应用中往往能获取的更多是无标签的数据。所以,我们在这里更多讨论的是当目标域是无标签的情况,即深度无监督域适应任务。

e60cf6f085553a243f189231c99ca513.png

▲ 深度无监督域适应是深度迁移学习方法的一个子类,目标域无标签而源域有标签,且目标域与源域在解决的是同一个任务(图源自 Sinno Pan et. al, A Survey on Transfer Learning)

当前,对深度无监督域适应任务的研究已经在图像领域有着诸多成果,并仍然是当前的热门研究课题之一。但是对于深度视频无监督域适应任务的研究却少得多。究其原因,可以归结为视频所蕴含的信息非常繁杂,既包括每一帧的静态空间信息,也包括了横跨数帧甚至贯穿整个视频的动态动作信息。除此之外,视频也还包括各种模态的信息,比如环境声、人物语言等等。在带来更多信息的同时,每一类信息亦会导致更严重的域分布差异。

也正因为域分布差异会产生于包括静态空间信息的各种模态的信息,当前的各种仅针对空间信息域分布差异而设计的域适应方案无法被有效的直接应用于解决视频的域分布差异问题,也就无法被用于深度视频无监督域适应。我们针对深度视频无监督适应进行了深入的研究,并提出了全新的方案与全新的数据集,希望能进一步推动深度视频无监督域适应任务的发展。在本文中我们会对这个方案以及我们所提出的数据集进行介绍 [1]。

与此同时,最基础的深度视频无监督域适应任务设定中对域适应的场景做出了诸多假定和限制,比如限制源域与目标域的标签必须是一致的(或者说在同一个标签空间下)。这些假定和限制可能与日常生产与生活应用不符,大大降低了所提出的域适应方案的实用性。

为此,我们也对深度视频无监督域适应中各种更实用的场景进行了研究。这些更实用的场景都对原有的最基础的设定进行了修改和松绑, 使其更符合现实应用的可能情况,提高了所提出的域适应方案的实用性。在本文中我们会对我们所研究的各类更实用设定下深度视频无监督域适应任务及其所对应的数据集进行介绍 [2][3]。

另外,当前深度视频无监督域适应任务大多以动作识别作为下游任务。本文中所介绍的方法也都以动作识别作为下游任务以判断深度视频无监督域适应方案的效果。需要指出的是目前也有研究基于其他视频下游任务比如视频目标检测和语义分割。我们在对深度视频域适应的综述及其对应的汇总库(见下面链接)进行了介绍,欢迎大家查阅。

90a830d664e34743f75bcb5ce732a397.png

论文标题:

Video Unsupervised Domain Adaptation with Deep Learning: A Comprehensive Survey

论文链接:

https://arxiv.org/abs/2211.10412

Github:

https://github.com/xuyu0010/awesome-video-domain-adaptation


42716f498920cc7e89d151fa4fbb37b4.png


TNNLS-22:基于视频中时空相关性信息进行域间对齐实现深度视频无监督域适应 [1]

论文链接:

https://arxiv.org/pdf/2107.04932

项目链接:

https://xuyu0010.github.io/vuda.html

我们认为对源/目标域视频进行对齐使其域分布差异减少实质上就是对齐源/目标域中与视频(或者更准确的说,动作)相关的特征。在以往的深度无监督域适应方案中,很多的改进都源于此论断,体现为对时态特征(temporal feature)进行更明确的甚至单独的进行对齐(比如 TA3N [4])。但是,这样的改进是否足以实现较好的视频无监督域适应呢?

其实不然,在视频中仍有很多与动作有关的特征理应被加以利用,在域适应过程中加以对齐。其中时空像素关系(pixel spatiotemporal correlation)与视频中所蕴含的动作信息高度相关。这在 Non-local Neural Network [5] 中及其后面的诸多动作识别网络,比如 TSM [6] 都有所证明。但是不同域,或者更广泛的说不同场景下的相同动作的时空像素关系也会表现得非常不一样,如下图所示:

5f550c410f11a9e5d642b4caad0ff3a8.png

在这篇文章中,我们提出利用对齐时空像素关系的特征及信息来实现视频域适应的方法,称为:Adversarial Correlation Adaptation Network(ACAN)。其中,对齐时空像素关系特征与对齐视频中更常用的诸如空间特征(spatial feature)和时态特征的方法是类似的。于此同时,虽然在同一个域中同一个动作所产生的时空像素关系特征理应非常相似,但是我们观察到这种特征在源/目标域中几乎必然存在异常值。

这些个别的异常的时空像素关系特征会对视频域适应产生负面的影响,降低所训练网络的迁移能力。为了减低这些异常值的影响,在这篇文章中我们引入了像素关系差异(Pixel Correlation Discrepancy——PCD)对整体的时空像素关系信息的分布进行进一步的对齐。下图展示了我们的 ACAN 网络结构:

2510a754b0fae99265b34318790efd7f.png

其中,ACAN-Base 采用对抗式域适应方式(adversarial-based,经典代表 DANN [7],ADDA [8])对视频的整体特征以及时空像素关系特征进行域适应。

对抗式域适应方式简单来说就是加入一个域分类器,并在训练中与特征提取器进行对抗,其训练目标是让特征提取器中提取可分辨的(discriminative)特征,同时此类特征无法被域分类器准确分类为源域或者目标域,即源域和目标域因为极为近似故而可以看作已经遵循同一种数据分布,并被视为对齐。此类方式在域适应研究中较为常用,实现方式也较为简单。

虽然 ACAN-Base 在特征层面上特征利用了时空像素关系进行视频域适应,但是正如前面所提,源/目标域中所存在的时空像素关系特征异常值会对域适应训练后所得到的模型的可迁移性产生不利的影响。为此,我们提出应进一步的对齐时空像素关系信息的分布。

那么这里问题的关键就是如何表述这种时空像素信息及其分布。我们采用如下图所示的(参考 Non-local Neural Network)结构获得一个像素关系矩阵(Pixel Correlation Matrix ),其中的任意一点坐标 所代表的数值即为在视频时空中点 与点 之间的相关性。

f7f50700feb72aea72459bbc1ff5af01.png

而这个信息的整体分布可由这个信息的协方差计算得到,在实践中我们利用格拉姆矩阵(Gram Matrix),并试图减小源域与目标域的时空像素关系格拉姆矩阵之间的 期望距离来对齐源域与目标域之间的时空像素关系信息,定义为 。但是直接计算出格拉姆矩阵及其之间的 距离 是一个极其耗费算力的运算。

为了减少算力,我们参考格拉姆矩阵在神经网络风格迁移 [9] 中的如下定理即:减少格拉姆矩阵之间的期望距离等同于对构建了格拉姆矩阵的矩阵进行分布对齐。基于此定理,对 的减少可以等同于减少源/目标域的像素关系矩阵的分布差,而此分布则被定义在了再生核希尔伯特空间(Reproducing Kernel Hibert Space)中。这里我们定义我们的像素关系差异(PCD)为等效于 Lvs 的一个描述时空像素信息差的差异(discrepancy)并定义为:

3fe122b891ee93c6f0b1d3bb211fadd8.png

其中 是在再生核希尔伯特空间 上动作类 的分布 的期望特征。我们进一步利用特征核函数 可以更简单直接的对 PCD 即等效于对 进行计算和最小化,从而与 ACAN-Base 一道实现更好的视频域适应效果。

同时,在本文中我们也提出了一个新的跨域动作识别数据集:HMDB-ARID 数据集。我们集合了 HMDB51 [10] 这个经典的数据集与一个非常不一样的黑暗视频数据集 ARID [11],ARID 仍是迄今为止据我们所知唯一一个针对黑暗视频进行动作识别任务的数据集。

这两个数据集风格迥异,之间的域分布差异较大,故而要实现将在 HMDB51 中训练得到的模型适应到 ARID 是极富挑战性的。下图展示了这个数据集中所包含的所有 11 个动作及其在 HMDB51(上)与 ARID(下)的对比。本数据集在这里开放下载:

https://xuyu0010.github.io/vuda.html

759bbf42b93968165e99dc6a484e6113.png

我们所提出的 ACAN 在 UCF-HMDB(full)[4] 以及 HMDB-ARID 中进行测试,都取得了较好的效果。相较于将在源域中得到的模型直接适应到目标域(即 Source-Only)的表现,我们所提出的 ACAN 都取得了不小的提升。

a92248e432ab2f55c97493115e56ddbc.png

d202c3d884e5de3c618b46bf4b7be1fb.png

总而言之,本文提出了 ACAN,一个利用对齐时空像素关系的特征及信息来实现视频域适应的方法,并同时推出了一个具有相较其他跨域动作识别数据集具有更大域分布差异的 HMDB-ARID 数据集。我们的方法在这个数据集以及一个更为常用的 UCF-HMDB(full)数据集上都取得了不错的表现。

c8168f28e11018363369f78df81e8ab2.png


ICCV-21:充分利用视频中的时序信息进行视频局部域适应 [2]

论文链接:

https://openaccess.thecvf.com/content/ICCV2021/papers/Xu_Partial_Video_Domain_Adaptation_With

代码链接:

https://github.com/xuyu0010/PATAN

项目主页:

https://xuyu0010.github.io/pvda.html

近两三年已经有越来越多的研究涉及到深度视频无监督域适应,研究如何能更有效的迁移和适应所训练的视频模型,感兴趣的可参见我们前面所提及的汇总与综述。但是,在实际应用之中绝大部分的方法都无法直接进行落地应用。一大原因是当前所关注研究的视频无监督域适应任务设定了诸多的设想与限制使其与现实需求与场景有不小的差异。

比如说,在进行深度视频无监督域适应任务时候,我们设想源域与目标域的标签空间完全一致,即源域有什么标签目标域会有完全一样的一套标签。但是在实际应用中我们的适应策略往往是从一个较大的数据集适应/迁移到一个较小的数据集(正如在图像识别领域在大型的 ImageNet 数据集进行预训练后迁移到更小的具体场景数据集中)。

在这种情况下,我们往往会遇到的情况反而是源域的标签会包含目标域的标签,即源域不仅含有目标域的标签,也含有一些只有在源域出现的相对于目标域的域外标签(outlier classes/labels)。在这种情况下进行无监督域适应的任务被成为局部域适应(Partial Domain Adaptation)。

使当前对一般无监督域适应有效的方法无法在局部域适应取得较好表现得一个重要原因就是域外标签会对适应过程产生副作用,具体表现为使目标域中的数据对齐到源域中为标签为域外标签的数据,造成负适应(negative transfer)。在图像局部域适应中这种负适应仅可能由空间特征造成,而在视频局部域适应中,这种负适应还可能由时序特征造成。

下图展现了一个非常简单的例子:由于在两个域中“走”与“跑”的视频都是从摄像头近端向远端移动的场景,故而直觉上来说他们的时序信息(时序特征)很可能会比较相似。这就进一步导致在目标域中的关于“跑”的视频通过对齐到源域中的“走”的视频引发负适应。

76b7c5ee6fa942f9872f883a507e4de1.png

对于实现有效的图像局部域适应,一个关键的步骤是对目标域外标签进行过滤,尽最大可能降低这些标签对局部域适应的负面影响。而由于在视频局部域适应中负适应会额外的被时序特征引发,所以如何在视频局部域适应中最大程度的利用时序信息成为了解决视频局部域适应问题的关键所在。我们认为应该:1)从视频中获取相对高效而又鲁棒的时序特征;2)充分利用时序特征并连同空间特征对目标域外标签进行过滤。

为了实现第一点我们采用了一个非常简单但又非常有效的时序特征提取法:时序关系模块(Temporal Relation Module [12])。采用这个特征提取法的原因是其通过不同帧间关系获取动作信息的思路与人类通过识别视觉世界两个状态之间的时间推移关系并推断出视频两帧之间发生的情况非常相向。

时序关系模块及时序关系网络(Temporal Relation Network TRN)也已在之前的视频无监督域适应工作 [4] 中得到了应用与检验。简单来说 TRN 作为特征提取器时提取的全局时序特征是由局部时序特征结合而来,而其局部时序特征是通过组合不同帧从而得到不同的帧间关系获得,如下图所示。

fd86d0edcb52fe9fd3a86066050316d2.png

单纯的直接利用 TRN 作为骨架就希望得到好的时序特征是不切实际的,毕竟每个局部特征都应该对全局特征有不同的影响。由于目标域外标签过滤是解决视频局部域适应的关键,所以我们认为我们所要关注的即是对这个过滤起到更加关键作用的局部时序特征。这些局部时序特征之所以能对目标域外标签进行有效过滤是因为他们能较好的区分自己是否属于目标域标签亦或是目标域外标签。

故而这些局部特征的分类预测应该是较为确定的,即他们的预测熵应该较小。根据这个我们设计了一个标签注意力机制(label attention),通过计算每个局部特征的分类预测置信度(预测熵值的负数)来对局部特征赋予权重,即标签注意力。这个注意力还会在置信度基础上加上残差连接赋予更高的稳定性并被限制在一定范围之间。对于一个标记为 的局部时序特征他的标签注意值为:

2a5dbc873ce666af288e36c300cd978a.png

而我们构建最后的全局时序特征是将所有的局部时序特征加权求和得到,如下图所示:

ad3b7803c734bddb1a4dd07a3e15f107.png

在构建完一个较为鲁棒且带标签注意力机制的时序特征后,我们利用时序和空间特征对目标域外标签进行过滤。这个过滤的过程实质上是一个对源域标签进行赋权的过程,其中赋予目标域标签更大的权重而赋予目标域外标签更小甚至接近 0 的权重(称之为类权重)。

这种权重的另一层解释即为每个源域标签与目标域标签重合的概率。一种非常直接而又有效的获取权重的方式即为获取目标数据在源域标签的预测。如果目标域标签的预测皆为准确的,则与目标域标签重合的源域标签所对应的预测概率会远大于目标域外标签的预测概率。

下图展示了我们所提出的基于对抗式域适应方式(与 ACAN 所用的策略一样),利用带注意力机制的时序特征的 Partial Adversarial Temporal Attentive Network(PATAN)。

可以注意到我们从目标域数据的三种特征获取类权重:空间特征的预测以及带/不带标签注意力机制的全局时序特征的预测。所获得的类权重(在图中被标记为 )会被用于源域数据的空间/全局时序特征所对应的分类器的交叉熵损失函数以及源域/目标域数据所对应的空间/全局时序特征对应的域分类器的交叉熵损失函数。

2c38645ab9a641389ca7d61e135bf838.png

相比起视频无监督域适应仍有诸如 UCF-HMDB(small/full)、HMDB-ARID 以及利用 Epic-Kitchens [13] 所提出的跨域动作识别数据集,视频局部域适应没有任何能符合其数据特征的跨域动作识别数据集。

为了进一步促进视频局部域适应的研究,我们提出了三套数据集,涵盖了不同的数据量(大型、小型)和不同的域分布差异。这三个分别为基于 UCF101 [14] 和 HMDB51 的 UCF-HMDB(partial),基于 Mini-Kinetics [15] 和 UCF101 的 MiniKinetics-UCF,以及基于 HMDB51 和 ARID 的 HMDB-ARID(partial)。这三组不同的数据集的对比以及一些样例图如下所见:

4f296741dd7b0caa34fd86c9a7c549e0.png

2be9f614471c77dde583649690563de9.png

所有的数据都可以通过这里进行下载:

https://xuyu0010.github.io/pvda.html

我们在所提出的三套数据集都进行了实验并验证了我们的方法相对于基于图像局部域适应所提出的方法以及基于视频无监督域适应所提出的方法都有不小的提升。我们也验证了我们的方法确实能更准确的对各个源域标签赋权,尽可能减小目标域外标签所造成的负适应影响。

6b7552026c2edd80c13a0d96454dbb0a.png

92c596a849d4637431b9a1054a1127ad.png

总而言之,本文提出了 PATAN,一个充分利用视频中的时序信息进行视频局部域适应的方法,并同时推出了三套涵盖了不同的数据量(大型、小型)和不同的域分布差异的视频局部域适应数据集。我们的方法在所提出的三套数据集都取得了不俗的表现。

e4325fcee0b770175149f40e0cadbcf5.png


ECCV-22:利用时序信息一致性进行视频无源域适应 [3]

论文链接:

https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136940144.pdf

代码链接:

https://github.com/xuyu0010/ATCoN

项目主页:

https://xuyu0010.github.io/sfvda.html

除了在数据/标签设定上与实际应用可能有所差异导致当前视频无监督域适应的诸多方法无法被应用于实际场景中,其实还有其他原因使他们的实用场景收到限制。其中比较严重的问题在于当前的视频无监督域适应方法(也包括针对诸如视频局部域适应方法等其他视频域适应场景的方法)都需要持续的访问源域视频数据。但在实际上,在适应网络过程中访问源域视频数据并不总是可行。

比如说在用于异常行为识别(anomaly action detection)的网络常被用于医院中,而为了降低采集/注释数据的工作量往往希望一个网络能被直接适应到不同医院。但是为了保护医院中病人的隐私数据,在适应到目标医院的过程中源医院的数据是不可能被共享给目标医院的。否则会产生非常严重的隐私问题。

而且因为视频所包含的信息远比一张图片所包含的信息多,故而能持续访问到源域视频数据的视频无监督域适应方式所涉及到的侵犯隐私问题会比图像中的无监督域适应所涉及到的侵犯隐私问题更为严重。为了解决当前视频无监督域适应的隐私侵犯问题,我们提出并研究视频无源域适应问题,即在不访问源域视频数据而只访问源视频模型的情况下如何将模型适应到一个没有标签注释的目标域中。

645aa65c8e601881cbfeba002dbbcf11.png

既然无法访问到源域视频,那么任何需要对齐(无论是明确的还是模糊的)源域数据分布与目标域数据分布的方法都是不可行的。一种可行的方案则是让目标域信息去对齐源视频模型中所包含的语义信息。

用更直白的话描述就是如果目标域的数据分布已经与源域数据分布(当然现在这个具体的数据分布是未知的)对齐了,那么源视频模型会呈现出什么样的表现或者情况。同时要注意的是,由于视频包含比图像更多模态的信息(最明显的是包含时序信息),故而在提出利用对齐语义信息进行视频无源域适应的方法应充分利用多模态信息(此处尤指时序信息)。

正如我们在第二部分 PATAN 所展示的,视频的全局时序特征可以由多个局部时序特征构成(也可以被称为多个片段时序信息)。我们认为:对于同一个视频而言其表现的动作信息是唯一的时候,其时序信息也应贯穿整个信息,即其多个局部时序特征之间理应是较为一致的,我们称以上的这个假定为跨时序假定(cross-temporal hypothesis)。

直观来说,如果不同的局部时序特征互相之间完全不一致(差异较大),这就意味着局部时序特征之间所包含的语义信息并不一致。而将这些局部时序特征进行整合而获取的全局时序特征也会包含模糊的语义信息而变得没有辨识性。我们与 PATAN 一文一样采用 TRN 作为特征采集的骨架网络并利用这个网络对源域视频采集了多个局部时序特征。

如下图所示,我们可以观察到虽然不同的局部时序特征并不完全是一模一样的,但是其大致的图案是相当相似的,而这也印证了我们所提出的跨时序假定。

750ae5d38c9e7ee9db4ccc8516e8e279.png

简而言之,如果源域视频模型被成功的适应到了目标域中,那么我们所获取的目标域特征理应符合跨时序假定,即目标域的局部时序特征之间也应具有一致性。这也就是我们解决视频无源域适应所采取的学习策略。这种一致性包含两方面的一致性:特征的一致性以及相对隐藏在源视频中的源域数据分布的相关性的一致性。而这种相关性可以直观的理解为利用源分类器所获取的目标域特征的预测结果(概率)。

同时,我们也意识到相比起直接求和或者求平均去融合局部时序特征,对局部时序特征进行加权融合能产生更鲁棒有效的全局时序特征。而在视频无源域适应中,我们选择对目标域中的局部时序特征与源域的相关性的置信度作为权重指标,以期与源域相关性更确信的局部时序特征能帮助全局时序特征更准确的明确与源域之间的相关性并进行对源域语义信息的对齐。

综上,我们在本文中提出了一个基于时序信息一致性的网络并包含了基于与源域数据分布相关性的置信度的注意力机制,称为 Attentive Temporal Consistent Network(ATCoN,读作@Con)。其结构如下图所示:

22ea58305354fc9bad9108b44272e53d.png

为了获取目标视频模型我们首先要获取一个源视频模型。如前面所言我们采用与 PATAN 一致的 TRN 作为这个源视频模型的骨架使其能提取局部和全局的时序信息。同时,为了增强源视频模型的可迁移性及其所获取特征的辨识性,我们借鉴了图像无源域适应方法 SHOT [16] 中的策略在训练源视频模型时采用了标签平滑。

在获得了源视频模型后,源域中的视频数据将在之后的整个适应与测试过程中无法被访问。同时,我们的目标视频模型采用了完全相同的骨架,其特征提取部分( )的参数由源视频模型的特征提取部分的参数进行初始化,而其分类器直接采用源视频模型的分类器( ),并且这个分类器不会被更新。

为了获取我们的目标视频模型及其对应的目标全局时序特征,我们让目标域中的局部时序特征满足跨时序假定,使其特征之间及源预测概率之间保持一致性(即黄色的 Feature Consistency 以及绿色的 Source Prediction Consistency)。其中如果局部时序特征之间是一致的,则其正则化后两两之间的互相关矩阵(cross-correlation matrix)应接近一个单位矩阵。

而局部时序特征的源预测概率一致性则通过缩小该视频中所包含的每个局部时序特征的源预测概率与所有局部时序特征的平均源预测概率之间的 KL 散度(Kullback-Leibler divergence)实现。同时,由于全局时序特征也应包含与局部时序特征一样的动作信息,所以这种源预测概率的一致性也被扩展到全局时序特征。

除了保证局部时序特征满足跨时序假定,我们还提出了基于目标域局部时序特征与源域的相关性的置信度的注意力机制。本质上就是基于目标域局部时序特征的源预测概率的置信度的注意力机制。同时,为了进一步提高我们所提出的 ATCoN 的表现,我们亦参照其他诸如 SHOT 的方法并加入了互信息最大化(Information Maximization)并基于循环 -means 聚类得到伪标签进行自监督(将目标源预测概率接近于这个伪标签)。

我们发现目前在视频无监督域适应领域其实并没有像图像中的 DomainNet 一样大型的基于多个有着明显数据分布差异的域的大型跨域动作识别数据集。所以在一篇有关视频多源域域适应的文章中我们额外的提出了两套更为大型更为综合的跨域动作识别数据集:Daily-DA(有关日常动作,基于 HMDB51,ARID,Moments-in-Time [17],Kinetics [18])以及 Sports-DA(有关运动动作,基于 UCF101,Kinetics,Sports-1M [19])。

相关文章目前在审,我们也会在接收后第一时间和大家分享。我们数据已经可以通过这里进行下载:

https://xuyu0010.github.io/msvda.html

我们将我们所提出的 ATCoN 方法在 UCF-HMDB(full)以及这两套大型跨域动作识别数据集进行了综合的测试,并发现我们的方法在利用了时序信息一致性后取得了非常好的表现,超过了针对图像无源域适应的所有方案,甚至还包括能访问到源域视频的普通视频无监督域适应方案。

2381899e1e3889dee62ea6852975db7f.png

总而言之,本文提出了 ATCoN,一个利用了时序信息一致性进行视频无源域适应的方法,从而能大大的缓解一般视频无监督域适应所带来的视频数据隐私侵犯问题。这套方法促使目标时序特征满足跨时序假定,使目标时序特征有较高的辨识性,从而在三套数据集都取得了不俗的表现。

5e81e6155e978b6a0ee4192ba412b26e.png


总结

在本文中,我们介绍了我们三篇针对视频无监督域适应及其各类更实用设定的研究进行了介绍,包括针对一般视频无监督域适应的 ACAN [1],针对视频局部域适应的 PATAN [2] 以及针对视频无源域适应的 ATCoN [3]。

同时,我们也介绍了我们为促进视频无监督域适应提出的诸多数据集:HMDB-ARID,UCF-HMDB(partial),MiniKinetics-UCF,HMDB-ARID(partial),Daily-DA 以及  Sports-DA。我们希望通过我们的介绍大家对视频无监督域适应有初步的了解并对这个能被利用到各领域的使训练视频模型会能通过摆脱视频标签注释变得更为简易的方向产生兴趣。

outside_default.png

参考文献

outside_default.png

[1] Xu, Y., Cao, H., Mao, K., Chen, Z., Xie, L., & Yang, J. (2022). Aligning correlation information for domain adaptation in action recognition. IEEE Transactions on Neural Networks and Learning Systems. https://arxiv.org/pdf/2107.04932

[2] Xu, Y., Yang, J., Cao, H., Chen, Z., Li, Q., & Mao, K. (2021). Partial video domain adaptation with partial adversarial temporal attentive network. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 9332-9341). https://openaccess.thecvf.com/content/ICCV2021/papers/Xu_Partial_Video_Domain_Adaptation_With_Partial_Adversarial_Temporal_Attentive_Network_ICCV_2021_paper.pdf

[3] Xu, Y., Yang, J., Cao, H., Wu, K., Wu, M., & Chen, Z. (2022). Source-Free Video Domain Adaptation by Learning Temporal Consistency for Action Recognition. In European Conference on Computer Vision (pp. 147-164). Springer, Cham. https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136940144.pdf

[4] Chen, M. H., Kira, Z., AlRegib, G., Yoo, J., Chen, R., & Zheng, J. (2019). Temporal attentive alignment for large-scale video domain adaptation. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 6321-6330). http://openaccess.thecvf.com/content_ICCV_2019/html/Chen_Temporal_Attentive_Alignment_for_Large-Scale_Video_Domain_Adaptation_ICCV_2019_paper.html

[5] Wang, X., Girshick, R., Gupta, A., & He, K. (2018). Non-local neural networks. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 7794-7803). http://openaccess.thecvf.com/content_cvpr_2018/html/Wang_Non-Local_Neural_Networks_CVPR_2018_paper.html

[6] Lin, J., Gan, C., Wang, K., & Han, S. (2020). TSM: Temporal shift module for efficient and scalable video understanding on edge devices. IEEE transactions on pattern analysis and machine intelligence. https://ieeexplore.ieee.org/abstract/document/9219141/

[7] Ganin, Y., Ustinova, E., Ajakan, H., Germain, P., Larochelle, H., Laviolette, F., ... & Lempitsky, V. (2016). Domain-adversarial training of neural networks. The journal of machine learning research, 17(1), 2096-2030. https://www.jmlr.org/papers/volume17/15-239/15-239.pdf

[8] Tzeng, E., Hoffman, J., Saenko, K., & Darrell, T. (2017). Adversarial discriminative domain adaptation. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 7167-7176). http://openaccess.thecvf.com/content_cvpr_2017/html/Tzeng_Adversarial_Discriminative_Domain_CVPR_2017_paper.html

[9] Li, Y., Wang, N., Liu, J., & Hou, X. (2017). Demystifying neural style transfer. arXiv preprint arXiv:1701.01036. https://arxiv.org/abs/1701.01036

[10] Kuehne, H., Jhuang, H., Garrote, E., Poggio, T., & Serre, T. (2011, November). HMDB: a large video database for human motion recognition. In 2011 International conference on computer vision (pp. 2556-2563). IEEE. https://ieeexplore.ieee.org/abstract/document/6126543/

[11] Xu, Y., Yang, J., Cao, H., Mao, K., Yin, J., & See, S. (2021, January). Arid: A new dataset for recognizing action in the dark. In International Workshop on Deep Learning for Human Activity Recognition (pp. 70-84). Springer, Singapore. https://xuyu0010.github.io/arid.html

[12] Zhou, B., Andonian, A., Oliva, A., & Torralba, A. (2018). Temporal relational reasoning in videos. In Proceedings of the European conference on computer vision (ECCV) (pp. 803-818). https://openaccess.thecvf.com/content_ECCV_2018/papers/Bolei_Zhou_Temporal_Relational_Reasoning_ECCV_2018_paper.pdf

[13] Munro, J., & Damen, D. (2020). Multi-modal domain adaptation for fine-grained action recognition. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 122-132). http://openaccess.thecvf.com/content_CVPR_2020/papers/Munro_Multi-Modal_Domain_Adaptation_for_Fine-Grained_Action_Recognition_CVPR_2020_paper.pdf

[14] Soomro, K., Zamir, A. R., & Shah, M. (2012). UCF101: A dataset of 101 human actions classes from videos in the wild. arXiv preprint arXiv:1212.0402. https://arxiv.org/pdf/1212.0402

[15] Xie, S., Sun, C., Huang, J., Tu, Z., & Murphy, K. (2018). Rethinking spatiotemporal feature learning: Speed-accuracy trade-offs in video classification. In Proceedings of the European conference on computer vision (ECCV) (pp. 305-321). http://openaccess.thecvf.com/content_ECCV_2018/papers/Saining_Xie_Rethinking_Spatiotemporal_Feature_ECCV_2018_paper.pdf

[16] Liang, J., Hu, D., & Feng, J. (2020, November). Do we really need to access the source data? source hypothesis transfer for unsupervised domain adaptation. In International Conference on Machine Learning (pp. 6028-6039). PMLR. http://proceedings.mlr.press/v119/liang20a/liang20a.pdf

[17] Monfort, M., Andonian, A., Zhou, B., Ramakrishnan, K., Bargal, S. A., Yan, T., ... & Oliva, A. (2019). Moments in time dataset: one million videos for event understanding. IEEE transactions on pattern analysis and machine intelligence, 42(2), 502-508. https://arxiv.org/pdf/1801.03150

[18] Carreira, J., & Zisserman, A. (2017). Quo vadis, action recognition? a new model and the kinetics dataset. In proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 6299-6308). https://openaccess.thecvf.com/content_cvpr_2017/papers/Carreira_Quo_Vadis_Action_CVPR_2017_paper.pdf

[19] Karpathy, A., Toderici, G., Shetty, S., Leung, T., Sukthankar, R., & Fei-Fei, L. (2014). Large-scale video classification with convolutional neural networks. In Proceedings of the IEEE conference on Computer Vision and Pattern Recognition (pp. 1725-1732). https://www.cv-foundation.org/openaccess/content_cvpr_2014/papers/Karpathy_Large-scale_Video_Classification_2014_CVPR_paper.pdf

更多阅读

1023cf66878396e2978d9cf09abfc930.png

d8fc7d712ffeb375a2e2a901c51e337c.png

17c6e689ab6376b9247bc803236889d2.png

3d8bab51bd8a017815ad530651c4b757.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

49548186cb5c8661e74e98cfd59fdf2b.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

652038d7c96f58cf67e6a7815a369774.jpeg

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
小样本学习是指在数据集非常小的情况下进行机器学习任务。在这种情况下,模型容易过拟合且泛化能力较弱。为了解决这个问题,可以使用数据增强方法来扩充数据集,从而提高模型的泛化能力。下面介绍三种常用的数据增强方法。 1. 几何变换 几何变换是指对图像进行平移、旋转、缩放等操作,生成新的图像。这种方法可以通过简单的变换来扩充数据集,同时可以增强模型对物体位置、大小、方向等的鲁棒性。常用的几何变换方法有旋转、平移、缩放、裁剪等。这些方法可以使用OpenCV、PIL等图像处理库来实现。 2. 颜色变换 颜色变换是指对图像的颜色进行调整,生成新的图像。这种方法可以通过改变亮度、对比度、色彩平衡等方式来扩充数据集,同时可以增强模型对不同光照条件下的鲁棒性。常用的颜色变换方法有亮度调整、对比度增强、色彩平衡调整等。这些方法可以使用OpenCV、PIL等图像处理库来实现。 3. 增加噪声 增加噪声是指对图像中加入一些随机噪声,生成新的图像。这种方法可以模拟许多真实场景下的噪声,如图像压缩、传感器噪声等,从而提高模型的泛化能力。常用的噪声方法有高斯噪声、椒盐噪声、泊松噪声等。这些方法可以使用numpy等库来实现。 以上三种方法是常用的数据增强方法,可以通过组合使用来扩充数据集。同时,也可以根据具体任务的特点,选择合适的数据增强方法。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值