TPAMI 2024 | Diversify:一种时间序列分布外检测和泛化的通用框架

题目:Diversify: A General Framework for Time Series Out-of-Distribution Detection and Generalization

Diversify:一种时间序列分布外检测和泛化的通用框架

作者:W. Lu; J. Wang; X. Sun; Y. Chen; X. Ji; Q. Yang; X. Xie


摘要

时间序列仍然是机器学习研究中最具挑战性的模态之一。时间序列的分布外(OOD)检测和泛化常常由于其非平稳性质而面临困难,即分布随时间变化。时间序列内的动态分布对现有算法提出了重大挑战,特别是在识别不变分布时,因为大多数算法侧重于先验信息提供的领域信息的情景。本文旨在通过探索完整数据集内的子域进行广义表示学习来解决时间序列中的非平稳性问题。我们提出了DIVERSIFY,一个用于时间序列动态分布的OOD检测和泛化的通用框架。DIVERSIFY通过一个迭代过程运行:首先识别“最坏情况”的潜在分布情景,然后努力缩小这些潜在分布之间的差距。我们通过结合现有的OOD检测方法,根据提取的特征或模型的输出来实现DIVERSIFY,同时我们也直接利用输出进行分类。理论见解支持该框架的有效性。我们在七个具有不同OOD设置的数据集上进行了广泛的实验,涵盖手势识别、语音命令识别、可穿戴压力和情感检测以及基于传感器的人类活动识别。定性和定量结果表明,DIVERSIFY学习到更广义的特征,并显著优于其他基线。

关键词

  • 域泛化
  • OOD检测
  • 分布外
  • 表示学习
  • 时间序列

I. 引言

时间序列分析是机器学习中最具挑战性的问题之一。多年来,已经对时间序列分类进行了大量努力,采用了各种方法,如隐马尔可夫模型、基于RNN的技术和基于Transformer的方法。时间序列数据在广泛的领域中有着广泛的应用,包括工业过程、股票预测以及临床和远程健康监测。与时间序列相关的几个活跃研究领域包括分类、预测、聚类和高频时间序列分析。

本文的主要关注点是学习时间序列的广义表示,以便更好地进行分布外(OOD)检测和泛化。OOD检测和泛化之间的区别在于分布变化的不同类型:标签变化和特征变化,取决于分布中变化的变量。标签变化通常在类内表现,意味着未见的目标可能包含训练数据中不存在的类。这个方面在异常检测和OOD检测领域已经得到了广泛的研究;相反,特征变化通常发生在输入中,对应的研究领域是OOD泛化,已经得到了广泛的研究。

OOD检测解决了标签变化问题,并且最近得到了很多关注。它可以被视为一种特殊的分类任务,旨在区分分布内(ID)类和OOD类。例如,Hendrycks等人开发了使用辅助异常数据集的OOD检测器,以增强深度OOD检测,而BATS通过将特征校正到其典型集并计算典型特征的OOD得分来进行可靠的不确定性估计。相反,OOD泛化方法通常假设存在预定义的域,并努力弥合这些域之间的差距,以获取可转移到未见目标分布的域不变表示。现有算法的关键是利用给定的领域信息(即领域索引)来指导域不变表示学习。例如,GILE自主分离了领域无关和领域特定特征,用于可泛化的基于传感器的跨人活动识别,而SDMix提供了一种语义数据增强方法来解决类似的问题。这些方法仍然严重依赖领域信息。


不幸的是,我们无法直接将现有的OOD检测和泛化算法应用于时间序列。非平稳性 [23],即统计特征随时间变化,为时间序列的OOD检测和泛化引入了新的挑战。除了特征空间中的常见空间变化外,非平稳性还产生了另一种特征变化,称为时间变化,可能在同一类的不同时间发生。时间变化通常是潜在的、动态的和可变的,使得数据的预分割变得困难,并使基于先验的手动分割不准确。此外,与计算机视觉不同,很少有时间序列数据集预先分区。据我们所知,没有工作同时考虑时间变化来研究时间序列OOD检测和泛化的OOD表示。

图1展示了一个示例。图像分类中的OOD泛化通常涉及几个静态已知域标签的域(子图(a)),可以用于构建OOD模型。然而,图1(b)显示,在EMG时间序列数据 [24] 中,分布随时间动态变化,其领域信息不可用。如果不考虑潜在分布(即子域)的探索,预测可能在面对多样的子域分布时失败(子图(c))。这将极大地阻碍现有的OOD算法,因为它们依赖于领域信息。

本文介绍了DIVERSIFY,一个通过表征数据内部潜在分布来进行时间序列OOD检测和泛化的广义表示学习框架。DIVERSIFY的最终思想是不依赖领域标签,描绘时间序列中的潜在分布,从而实现有效的OOD检测和泛化。具体来说,DIVERSIFY包含一个最小-最大对抗游戏:一方面,它通过最大化段间分布差距将时间序列数据分段为多个潜在子域,以保持多样性,即“最坏情况”分布情景;另一方面,通过减少获得的潜在域之间的分布差异,学习域不变表示。这种潜在分布在时间序列中自然存在,例如,多个人的活动数据遵循不同的分布。此外,我们的实验表明,即使是单个人的数据也表现出这种多样性,可以分割为多个潜在分布。在获得表征的潜在分布后,我们可以为下游目的(如OOD检测和泛化)建立不同的实现。具体来说,对于OOD检测,我们提供了两种实现,DIVERSIFY-MAH利用学习到的广义表示的马氏距离,而DIVERSIFY-MCP利用模型的logit输出。通过简单的softmax激活,DIVERSIFY轻松促进泛化。值得注意的是,由于DIVERSIFY提供的优越表示和预测,所有提出的实现都能显著优于其他方法。

本文扩展了我们之前在ICLR 2023上发表的论文 [15],该论文仅关注OOD泛化。与之前版本相比,本版本通过将DIVERSIFY表述为一个通用框架,同时解决OOD检测和泛化,并开发了用于OOD检测的新算法,增加了更多实验和分析。

总结来说,我们的贡献有四个方面:

  • 通用框架:我们提出了一个通用框架,DIVERSIFY,同时解决OOD检测和泛化。DIVERSIFY可以识别潜在分布并学习广义表示。我们提供了DIVERSIFY背后的理论见解,以分析其设计理念。
  • 具体实现:对于OOD检测,我们提供了两种实现,DIVERSIFY-MAH和DIVERSIFY-MCP。对于分类,我们直接利用DIVERSIFY的输出和softmax激活。
  • 卓越性能和深刻结果:定性和定量结果表明,DIVERSIFY在几个具有挑战性的场景中表现卓越:困难任务、显著多样的数据集和有限数据。更重要的是,DIVERSIFY能够成功表征时间序列数据集中的潜在分布。
  • 可扩展性:除了提出的实现,DIVERSIFY是一个可扩展框架,这意味着它可以用更多的方法实现,例如ODIN [25]。因此,DIVERSIFY可以应用于更多的应用,并通过最新方法进一步改进。

本文的其余部分组织如下。我们将在第II节介绍相关工作,在第III节详细阐述提出的方法并提供简明总结。然后,在第IV和V节分别展示实验实现和结果,以证明DIVERSIFY在检测和泛化方面的优越性,同时在第VI节提供实验分析。第VII节提供了一些限制和讨论。最后,在第VIII节可以找到结论和一些未来可能的方向。

III. 方法论

A. 问题表述

时间序列训练数据集 D t r D_{tr} Dtr可以通过滑动窗口预处理为 N N N个输入: D t r = { ( x i , y i ) } i = 1 N D_{tr} = \{(x_i, y_i)\}_{i=1}^N Dtr={(xi,yi)}i=1N,其中 x i ∈ X ⊂ R p x_i \in X \subset \mathbb{R}^p xiXRp p p p维实例, y i ∈ Y = { 1 , … , C } y_i \in Y = \{1, \ldots, C\} yiY={1,,C}是其标签。我们使用 P t r ( x , y ) P_{tr}(x, y) Ptr(x,y)表示训练数据集的联合分布在 X × Y X \times Y X×Y上。我们的目标是从 D t r D_{tr} Dtr中学习一个广义模型,以便在训练时无法访问的未见目标数据集 D t e D_{te} Dte上进行良好预测。在我们的问题中,训练和测试数据集具有相同的输入,但分布不同,即 X t r = X t e X_{tr} = X_{te} Xtr=Xte,但 P t r ( x , y ) ≠ P t e ( x , y ) P_{tr}(x, y) \neq P_{te}(x, y) Ptr(x,y)=Pte(x,y)

OOD检测:测试数据集包含比训练数据集更多的类,即 Y t r ⊂ Y t e Y_{tr} \subset Y_{te} YtrYte。我们将训练数据集中存在的类称为ID类, C I D = { 1 , 2 , … , C n } C_{ID} = \{1, 2, \ldots, C_n\} CID={1,2,,Cn},而仅在测试数据集中存在的类是OOD类, C O O D = { C n + 1 } C_{OOD} = \{C_n + 1\} COOD={Cn+1}。我们旨在从 D t r D_{tr} Dtr中训练一个模型 h h h,以检测OOD类,并在测试数据集 D t e D_{te} Dte上的ID类中实现最小错误率。

OOD泛化:训练和测试数据集共享相同的输出空间,即 Y t r = Y t e Y_{tr} = Y_{te} Ytr=Yte。我们旨在从 D t r D_{tr} Dtr中训练一个模型 h h h,以在测试数据集 D t e D_{te} Dte上实现最小错误率。

B. 动机

什么是时间序列中的域和分布变化?时间序列可能由几个未知的潜在分布(域)组成。例如,来自三个人的传感器数据可能由于个人差异而属于不同的分布,被称为空间分布变化。值得注意的是,我们还观察到时间分布变化,即单个个体的数据分布在不同时间内可以变化。这些变化在时间序列数据中很常见,几项研究支持这一观点。图2提供了一个例子。图2(a)展示了EMG数据中分布的动态变化,其中没有领域信息,而图2(b)显示了步行期间收集的传感器数据,展示了不同个体之间的不同分布。此外,图2©说明了标签变化,其中站立、跑步和骑车可以是训练数据中的分布内(ID)类,而跌倒是仅在目标中存在的OOD类。

潜在域特征对于OOD检测和泛化是不可或缺的。由于非平稳性质,将时间序列视为一个分布的简单方法无法捕捉域不变(OOD)特征,因为它们忽略了数据集内部的多样性。在图1(d)中,我们假设训练域包含两个子域(圆点和加号点)。通过现有的OOD方法直接将其视为一个分布可能会生成黑色边界。当使用学到的模型在OOD域(星号点)上进行预测时,红色星号点被错误分类为绿色类。因此,应该表征时间序列中的多个多样化潜在分布,以学习更好的OOD特征,这是在遇到非平稳时影响OOD检测和泛化性能的关键因素。我们将图1(b)中的分布变化命名为空间分布变化,可以根据一些特定特征(例如人、位置和其他因素)将数据分组为不同域。然而,在实际场景中,信息可能丢失或不适合分组,我们只能访问没有分割的整个数据集。


潜在域表征的简要表述。 根据上述讨论,根据特征变化,一个时间序列可能包含K个未知的潜在域4,5,而不是一个固定的域,即 P t r ( x , y ) = ∑ i = 1 K π i P i ( x , y ) P_{tr}(x, y) = \sum_{i=1}^K \pi_i P_i(x, y) Ptr(x,y)=i=1KπiPi(x,y),其中 P i ( x , y ) P_i(x, y) Pi(x,y)是第i个潜在域的分布,权重为 π i \pi_i πi ∑ i = 1 K π i = 1 \sum_{i=1}^K \pi_i = 1 i=1Kπi=1。6 有无数种方法可以获得 P i P_i Pi,我们的目标是学习每个 P i P_i Pi P j P_j Pj之间分布差异最大的“最坏情况”分布情景。为什么是“最坏情况”情景?它将最大程度地保留每个潜在分布的多样信息,从而有利于泛化。

C. DIVERSIFY

在本文中,我们提出了DIVERSIFY,用于学习时间序列OOD检测和泛化的OOD表示。DIVERSIFY的核心是表征潜在分布,然后最小化每两个分布之间的分布差异。具体来说,采用了一个迭代过程:首先从给定的数据集中获取“最坏情况”分布情景,然后弥合每对潜在分布之间的分布差距。它主要包含四个步骤,其中步骤2至4是迭代的:

  1. 预处理:此步骤采用滑动窗口将整个训练数据集分割成固定大小的窗口。我们认为一个窗口的数据是最小的域单元。
  2. 细粒度特征更新:此步骤使用提出的伪域类别标签作为监督更新特征提取器。
  3. 潜在分布表征:旨在识别每个实例的域标签,以获取潜在分布信息。它最大化不同分布间的差距以扩大多样性。
  4. 域不变表示学习:此步骤利用上一步的伪域标签学习域不变表示,并训练一个可泛化的模型。
细粒度特征更新

在表征潜在分布之前,我们执行细粒度特征更新,以获得细粒度表示。如图3(蓝色)所示,我们提出了一个新概念,伪域类别标签,以充分利用域和类别中包含的知识,作为特征提取器的监督。特征在域和标签方面更加细粒度,而不仅仅是附加到域或标签。

在第一次迭代中,没有域标签 d ′ d' d,我们简单地将所有样本初始化为 d ′ = 0 d' = 0 d=0。我们将每个类别的每个域视为一个新类,标签为 s ∈ { 1 , 2 , … , S } s \in \{1, 2, \ldots, S\} s{1,2,,S}。我们有 S = K × C S = K \times C S=K×C,其中 K K K是实验中可以调整的预定义潜在分布数量。我们执行伪域类别标签分配,以获得用于监督的离散值: s = d ′ × C + y s = d' \times C + y s=d×C+y

h f ( 2 ) , h b ( 2 ) , h c ( 2 ) h_f^{(2)}, h_b^{(2)}, h_c^{(2)} hf(2),hb(2),hc(2)分别为特征提取器、瓶颈和分类器(我们使用上标表示步骤编号)。然后,使用交叉熵损失 L \mathcal{L} L计算监督损失:

L s u p e r = E ( x , y ) ∼ P t r L ( h c ( 2 ) ( h b ( 2 ) ( h f ( 2 ) ( x ) ) ) , s ) L_{super} = \mathbb{E}_{(x, y) \sim P_{tr}} \mathcal{L}(h_c^{(2)}(h_b^{(2)}(h_f^{(2)}(x))), s) Lsuper=E(x,y)PtrL(hc(2)(hb(2)(hf(2)(x))),s)

潜在分布表征

此步骤表征一个数据集中包含的潜在分布。如图3(绿色)所示,我们提出了一种改编的对抗训练方法,以分离域标签和类别标签。然而,没有提供实际的域标签,这阻碍了这种分离。受先前工作的启发,我们采用自监督伪标签策略获取域标签。

首先,我们使用类别无关特征获得每个域的质心:

μ ~ k = ∑ x i ∈ X t r δ k ( h c ( 3 ) ( h b ( 3 ) ( h f ( 3 ) ( x i ) ) ) ) h b ( 3 ) ( h f ( 3 ) ( x i ) ) ∑ x i ∈ X t r δ k ( h c ( 3 ) ( h b ( 3 ) ( h f ( 3 ) ( x i ) ) ) ) , \tilde{\mu}_k = \frac{\sum_{x_i \in X_{tr}} \delta_k(h_c^{(3)}(h_b^{(3)}(h_f^{(3)}(x_i))))h_b^{(3)}(h_f^{(3)}(x_i))}{\sum_{x_i \in X_{tr}} \delta_k(h_c^{(3)}(h_b^{(3)}(h_f^{(3)}(x_i))))}, μ~k=xiXtrδk(hc(3)(hb(3)(hf(3)(xi))))xiXtrδk(hc(3)(hb(3)(hf(3)(xi))))hb(3)(hf(3)(xi)),

其中 h f ( 3 ) , h b ( 3 ) , h c ( 3 ) h_f^{(3)}, h_b^{(3)}, h_c^{(3)} hf(3),hb(3),hc(3)分别为特征提取器、瓶颈和分类器。 μ ~ k \tilde{\mu}_k μ~k是第 k k k个潜在域的初始质心,而 δ k \delta_k δk是logit softmax输出的第 k k k个元素。然后,我们通过最近质心分类器使用距离函数 D D D获取伪域标签:

d ~ i ′ = arg ⁡ min ⁡ k D ( h b ( 3 ) ( h f ( 3 ) ( x i ) ) , μ ~ k ) 。 \tilde{d}'_i = \arg \min_k D(h_b^{(3)}(h_f^{(3)}(x_i)), \tilde{\mu}_k)。 d~i=argkminD(hb(3)(hf(3)(xi)),μ~k)

然后,我们计算质心并获得更新的伪域标签:

μ k = ∑ x i ∈ X t r I ( d ~ i ′ = k ) h b ( 3 ) ( h f ( 3 ) ( x i ) ) ∑ x i ∈ X t r I ( d ~ i ′ = k ) , \mu_k = \frac{\sum_{x_i \in X_{tr}} I(\tilde{d}'_i = k)h_b^{(3)}(h_f^{(3)}(x_i))}{\sum_{x_i \in X_{tr}} I(\tilde{d}'_i = k)}, μk=xiXtrI(d~i=k)xiXtrI(d~i=k)hb(3)(hf(3)(xi))

d i ′ = arg ⁡ min ⁡ k D ( h b ( 3 ) ( h f ( 3 ) ( x i ) ) , μ k ) , d'_i = \arg \min_k D(h_b^{(3)}(h_f^{(3)}(x_i)), \mu_k), di=argkminD(hb(3)(hf(3)(xi)),μk)

其中 I ( a ) = 1 I(a) = 1 I(a)=1 a a a为真时,否则为0。获得 d ′ d' d后,我们可以计算步骤3的损失:

L s e l f + L c l s = E ( x , y ) ∼ P t r L ( h c ( 3 ) ( h b ( 3 ) ( h f ( 3 ) ( x ) ) ) , d ′ ) + L ( h a d v ( 3 ) ( R λ 1 ( h b ( 3 ) ( h f ( 3 ) ( x ) ) ) ) , y ) , L_{self} + L_{cls} = \mathbb{E}_{(x, y) \sim P_{tr}} \mathcal{L}(h_c^{(3)}(h_b^{(3)}(h_f^{(3)}(x))), d') + \mathcal{L}(h_{adv}^{(3)}(R_{\lambda_1}(h_b^{(3)}(h_f^{(3)}(x)))), y), Lself+Lcls=E(x,y)PtrL(hc(3)(hb(3)(hf(3)(x))),d)+L(hadv(3)(Rλ1(hb(3)(hf(3)(x)))),y)

其中 h a d v ( 3 ) h_{adv}^{(3)} hadv(3)是步骤3的判别器,包含几个线性层和一个分类层。 R λ 1 R_{\lambda_1} Rλ1是具有超参数 λ 1 \lambda_1 λ1的梯度反向层。在此步骤之后,我们可以获得 x x x的伪域标签 d ′ d' d

域不变表示学习

在获得潜在分布后,我们学习域不变表示以进行泛化。事实上,此步骤(图3中的紫色)很简单:我们借用DANN的想法,直接使用对抗训练更新分类损失 L c l s L_{cls} Lcls和使用梯度反向层(GRL)的域分类器损失 L d o m L_{dom} Ldom(一种常见的技术,通过反转梯度促进对抗训练):

L c l s + L d o m = E ( x , y ) ∼ P t r L ( h c ( 4 ) ( h b ( 4 ) ( h f ( 4 ) ( x ) ) ) , y ) + L ( h a d v ( 4 ) ( R λ 2 ( h b ( 4 ) ( h f ( 4 ) ( x ) ) ) ) , d ′ ) , L_{cls} + L_{dom} = \mathbb{E}_{(x, y) \sim P_{tr}} \mathcal{L}(h_c^{(4)}(h_b^{(4)}(h_f^{(4)}(x))), y) + \mathcal{L}(h_{adv}^{(4)}(R_{\lambda_2}(h_b^{(4)}(h_f^{(4)}(x)))), d'), Lcls+Ldom=E(x,y)PtrL(hc(4)(hb(4)(hf(4)(x))),y)+L(hadv(4)(Rλ2(hb(4)(hf(4)(x)))),d)

其中 L \mathcal{L} L是交叉熵损失, R λ 2 R_{\lambda_2} Rλ2是具有超参数 λ 2 \lambda_2 λ2的梯度反向层。我们将在此省略GRL和对抗训练的详细信息,因为它们是深度学习中的常见技术。

训练和复杂性。我们重复这些步骤,直到收敛或达到最大迭代次数。与现有方法不同,最后两个步骤仅优化最后几个独立层。大多数可训练参数在模块之间共享,这表明DIVERSIFY与现有方法具有相同的模型大小。最后一步的模块用于推理。

D. 用于OOD检测的DIVERSIFY

DIVERSIFY尝试利用子域并学习广义表示。在本节中,我们提供了DIVERSIFY的两种实现,即DIVERSIFY-MAH和DIVERSIFY-MCP,用于时间序列OOD检测。在这两种实现中,我们首先按照第III-C节的步骤训练模型,然后在测试时分别结合使用表示和logits的后验方法。

DIVERSIFY-MAH。基于马氏距离的置信度得分是一种流行的度量,用于检测OOD样本,主要受模型给出的特征/表示影响。我们可以在高斯判别分析(GDA)下获得深度模型特征的类条件高斯分布,结果是基于马氏距离的置信度得分。DIVERSIFY-MAH使用瓶颈的输出获取相应样本的特征,

z = h b ( 4 ) ( h f ( 4 ) ( x ) ) 。 z = h_b^{(4)}(h_f^{(4)}(x))。 z=hb(4)(hf(4)(x))

DIVERSIFY-MAH假设 z z z的类条件分布遵循多变量高斯分布,

P ( z ∣ y = c ) ∼ N ( μ c , Σ ) , P(z|y = c) \sim N(\mu_c, \Sigma), P(zy=c)N(μc,Σ)

其中 μ c \mu_c μc是ID类 c c c的多变量高斯分布的均值,而 Σ \Sigma Σ是一个绑定协方差矩阵,

μ c = 1 N c ∑ i : y i = c z i , \mu_c = \frac{1}{N_c} \sum_{i:y_i = c} z_i, μc=Nc1i:yi=czi

Σ = 1 N ∑ c ∑ i : y i = c ( z i − μ c ) ( z i − μ c ) T , \Sigma = \frac{1}{N} \sum_c \sum_{i:y_i = c} (z_i - \mu_c)(z_i - \mu_c)^T, Σ=N1ci:yi=c(ziμc)(ziμc)T

其中 N c N_c Nc表示类 c c c中的样本数量。根据GDA和softmax分类器之间的简单理论联系,在绑定协方差假设下,由生成分类器定义的后验分布等同于softmax分类器。现在,我们可以利用测试样本 x x x与最近类条件分布之间的马氏距离作为置信度得分,

M ( x ) = max ⁡ c − ( z − μ c ) T Σ − 1 ( z − μ c ) 。 M(x) = \max_c - (z - \mu_c)^T \Sigma^{-1} (z - \mu_c)。 M(x)=cmax(zμc)TΣ1(zμc)

M ( x ) M(x) M(x)越大, x x x越有可能属于类 c c c,从而 x x x越有可能是ID样本。相反, M ( x ) M(x) M(x)较小表明该样本可能是OOD样本。由于DIVERSIFY-MAH不依赖于模型的预测,它可以避免深度学习模型高置信度输出的影响。

DIVERSIFY-MCP。最大类概率(MCP)是OOD检测的流行基线。它极大地受到模型预测的影响,因为它直接利用模型的logit输出,这意味着更好的预测可以带来更好的MCP性能。结合MCP,我们实现了DIVERSIFY-MCP。

DIVERSIFY-MCP获取数据的估计向量为:

y ′ = h c ( 4 ) ( h b ( 4 ) ( h f ( 4 ) ( x ) ) ) 。 y' = h_c^{(4)}(h_b^{(4)}(h_f^{(4)}(x)))。 y=hc(4)(hb(4)(hf(4)(x)))

通过softmax激活, y ′ y' y可以转换为0到1之间的向量,

y ~ ′ = softmax ( y ′ ) , \tilde{y}' = \text{softmax}(y'), y~=softmax(y)

这可以在某种程度上反映模型的置信度。通常,我们可以将 y ~ ′ \tilde{y}' y~视为类的概率估计。最有可能的类的概率 v = max ⁡ y P ( y ∣ x ) v = \max_y P(y|x) v=maxyP(yx)是最终预测,它也可以作为ID得分。 v v v越大,模型越自信,从而样本越有可能是ID样本。相反, v v v较小表明可能的OOD输入。由于现代NN经常表现出过度自信的softmax输出,我们还可以在softmax激活中使用温度超参数生成更平滑的预测,

y ~ ′ = softmax ( y ′ , T ) , y ~ i ′ = exp ⁡ ( y i ′ / T ) ∑ j exp ⁡ ( y j ′ / T ) 。 \tilde{y}' = \text{softmax}(y', T), \quad \tilde{y}'_i = \frac{\exp(y'_i / T)}{\sum_j \exp(y'_j / T)}。 y~=softmax(y,T)y~i=jexp(yj/T)exp(yi/T)

E. 用于OOD泛化的DIVERSIFY

DIVERSIFY也可以用于分类。我们可以直接利用第4步的输出,通过softmax激活获得预测,

y ′ = softmax ( h c ( 4 ) ( h b ( 4 ) ( h f ( 4 ) ( x ) ) ) ) 。 y' = \text{softmax}(h_c^{(4)}(h_b^{(4)}(h_f^{(4)}(x))))。 y=softmax(hc(4)(hb(4)(hf(4)(x))))

F. 理论见解

初步

对于具有理想二元标签函数 h ∗ h^* h和假设 h h h的分布 P P P,我们根据定义错误 ϵ P ( h ) \epsilon_P(h) ϵP(h)为:

ϵ P ( h ) = E x ∼ P ∣ h ( x ) − h ∗ ( x ) ∣ 。 \epsilon_P(h) = \mathbb{E}_{x \sim P} |h(x) - h^*(x)|。 ϵP(h)=ExPh(x)h(x)

我们还根据定义给出 H H H-散度。给定空间 X X X上的两个分布 P , Q P, Q P,Q和假设类 H H H

d H ( P , Q ) = 2 sup ⁡ h ∈ H ∣ Pr ⁡ P ( I h ) − Pr ⁡ Q ( I h ) ∣ , d_H(P, Q) = 2 \sup_{h \in H} |\Pr_P(I_h) - \Pr_Q(I_h)|, dH(P,Q)=2hHsupPPr(Ih)QPr(Ih)

其中 I h = { x ∈ X ∣ h ( x ) = 1 } I_h = \{x \in X | h(x) = 1\} Ih={xXh(x)=1}。我们通常考虑 H Δ H H \Delta H HΔH-散度,其中对称差假设类 H Δ H H \Delta H HΔH是表示假设之间分歧的函数集。

定理3.1

([76]中的定理2.1,从[75]中的定理2修改)。设 X X X为一个空间, H H H为对应于该空间的假设类。假设 P P P Q Q Q X X X上的分布。然后对于任何 h ∈ H h \in H hH,有以下成立

ϵ Q ( h ) ≤ λ ′ ′ + ϵ P ( h ) + 1 2 d H Δ H ( Q , P ) \epsilon_Q(h) \leq \lambda'' + \epsilon_P(h) + \frac{1}{2} d_{H \Delta H}(Q, P) ϵQ(h)λ′′+ϵP(h)+21dHΔH(Q,P)

其中 λ ′ ′ \lambda'' λ′′ Q , P Q, P Q,P的理想联合假设的错误。定理3.1提供了目标错误的上界。

λ ′ ′ \lambda'' λ′′是数据集和假设类的属性,通常被忽略。定理3.1展示了学习域不变特征的必要性。

命题3.2

X X X为一个空间, H H H为对应于该空间的假设类。设 Q Q Q和集合 { P i } i = 1 K \{P_i\}_{i=1}^K {Pi}i=1K X X X上的分布,设 { ϕ i } i = 1 K \{\phi_i\}_{i=1}^K {ϕi}i=1K为非负系数集合,满足 ∑ i ϕ i = 1 \sum_i \phi_i = 1 iϕi=1。设 O O O为分布集合,使得 ∀ S ∈ O \forall S \in O SO,有以下成立

d H Δ H ( ∑ i ϕ i P i , S ) ≤ max ⁡ i , j d H Δ H ( P i , P j ) 。 d_{H \Delta H} \left( \sum_i \phi_i P_i, S \right) \leq \max_{i,j} d_{H \Delta H}(P_i, P_j)。 dHΔH(iϕiPi,S)i,jmaxdHΔH(Pi,Pj)

然后,对于任何 h ∈ H h \in H hH

ϵ Q ( h ) ≤ λ ′ + ∑ i ϕ i ϵ P i ( h ) + 1 2 min ⁡ S ∈ O d H Δ H ( S , Q ) + 1 2 max ⁡ i , j d H Δ H ( P i , P j ) 。 \epsilon_Q(h) \leq \lambda' + \sum_i \phi_i \epsilon_{P_i}(h) + \frac{1}{2} \min_{S \in O} d_{H \Delta H}(S, Q) + \frac{1}{2} \max_{i,j} d_{H \Delta H}(P_i, P_j)。 ϵQ(h)λ+iϕiϵPi(h)+21SOmindHΔH(S,Q)+21i,jmaxdHΔH(Pi,Pj)

其中 λ ′ \lambda' λ是理想联合假设的错误。 ϵ P ( h ) \epsilon_P(h) ϵP(h)是分布 P P P上假设 h h h的错误。 d H Δ H ( P , Q ) d_{H \Delta H}(P, Q) dHΔH(P,Q) H H H-散度,衡量分布间的差异。

证明

一方面,根据定理3.1,我们有

ϵ Q ( h ) ≤ λ 1 ′ + ϵ S ( h ) + 1 2 d H Δ H ( S , Q ) , ∀ h ∈ H , ∀ S ∈ O 。 \epsilon_Q(h) \leq \lambda_1' + \epsilon_S(h) + \frac{1}{2} d_{H \Delta H}(S, Q), \quad \forall h \in H, \forall S \in O。 ϵQ(h)λ1+ϵS(h)+21dHΔH(S,Q)hHSO

另一方面,根据定理3.1,我们有

ϵ S ( h ) ≤ λ 2 ′ + ϵ ∑ i ϕ i P i ( h ) + 1 2 d H Δ H ( ∑ i ϕ i P i , S ) , ∀ h ∈ H 。 \epsilon_S(h) \leq \lambda_2' + \epsilon_{\sum_i \phi_i P_i}(h) + \frac{1}{2} d_{H \Delta H} \left( \sum_i \phi_i P_i, S \right), \quad \forall h \in H。 ϵS(h)λ2+ϵiϕiPi(h)+21dHΔH(iϕiPi,S)hH

由于 d H Δ H ( ∑ i ϕ i P i , S ) ≤ max ⁡ i , j d H Δ H ( P i , P j ) d_{H \Delta H} \left( \sum_i \phi_i P_i, S \right) \leq \max_{i,j} d_{H \Delta H}(P_i, P_j) dHΔH(iϕiPi,S)maxi,jdHΔH(Pi,Pj),且 ϵ ∑ i ϕ i P i ( h ) = ∑ i ϕ i ϵ P i ( h ) \epsilon_{\sum_i \phi_i P_i}(h) = \sum_i \phi_i \epsilon_{P_i}(h) ϵiϕiPi(h)=iϕiϵPi(h),我们有

ϵ Q ( h ) ≤ λ ′ + ∑ i ϕ i ϵ P i ( h ) + 1 2 d H Δ H ( S , Q ) + 1 2 max ⁡ i , j d H Δ H ( ∑ i ϕ i P i , S ) , ∀ h ∈ H , ∀ S ∈ O , \epsilon_Q(h) \leq \lambda' + \sum_i \phi_i \epsilon_{P_i}(h) + \frac{1}{2} d_{H \Delta H}(S, Q) + \frac{1}{2} \max_{i,j} d_{H \Delta H} \left( \sum_i \phi_i P_i, S \right), \quad \forall h \in H, \forall S \in O, ϵQ(h)λ+iϕiϵPi(h)+21dHΔH(S,Q)+21i,jmaxdHΔH(iϕiPi,S)hHSO

其中 λ ′ = λ 1 ′ + λ 2 ′ \lambda' = \lambda_1' + \lambda_2' λ=λ1+λ2。对于所有 S ∈ O S \in O SO,方程(21)成立。因此,我们完成了证明。

(18)中的第一项 λ ′ \lambda' λ通常被忽略,因为它在现实中很小。第二项 ∑ i ϕ i ϵ P i ( h ) \sum_i \phi_i \epsilon_{P_i}(h) iϕiϵPi(h)存在于几乎所有方法中,可以通过(6)中的类标签的监督交叉熵损失来最小化。我们的主要目的是最小化(18)中的最后两项。这里 Q Q Q对应于未见的分布外目标域。

最后一项 1 2 max ⁡ i , j d H Δ H ( P i , P j ) \frac{1}{2} \max_{i,j} d_{H \Delta H}(P_i, P_j) 21maxi,jdHΔH(Pi,Pj)在OOD理论中很常见,衡量源域之间的最大差异。这对应于我们方法中的步骤4。

最后,第三项 1 2 min ⁡ S ∈ O d H Δ H ( S , Q ) \frac{1}{2} \min_{S \in O} d_{H \Delta H}(S, Q) 21minSOdHΔH(S,Q)解释了为什么我们利用子域。由于我们的目标是学习一个在未见目标域上表现良好的模型,我们无法获得 Q Q Q。要最小化 1 2 min ⁡ S ∈ O d H Δ H ( S , Q ) \frac{1}{2} \min_{S \in O} d_{H \Delta H}(S, Q) 21minSOdHΔH(S,Q),我们只能扩大 O O O的范围。我们必须根据(17) max ⁡ i , j d H Δ H ( P i , P j ) \max_{i,j} d_{H \Delta H}(P_i, P_j) maxi,jdHΔH(Pi,Pj),这对应于我们方法中的步骤3,尝试通过最大化分段分布间的差距来将时间序列数据分割成多个潜在子域,以保持多样性,即“最坏情况”分布情景。更好的表示和预测可以带来改进。

IV. OOD检测实验

我们在三个不同的时间序列检测任务上进行了评估:手势识别、可穿戴压力和情感检测以及基于传感器的活动识别。表I显示了我们使用的数据集的统计信息。

A. 设置

我们利用滑动窗口技术分割数据。顾名思义,这种技术涉及从给定数组或序列中获取数据子集。滑动窗口技术的两个主要参数是窗口大小,描述子集长度,步长,描述每次向前移动的距离。

目前研究较少的带有特征变化的时间序列OOD检测算法,我们将现有DG方法与MCP和马氏距离相结合。我们与五种最先进的方法进行了比较。DANN是一种利用对抗训练强制判别器无法分类域的方法,以获得更好的域不变特征。它需要事先分割数据和域标签,而我们的方法是通用的。CORAL利用特征层中的协方差对齐以获得更好的域不变特征。它也需要事先分割数据和域标签。GroupDRO是一种在原始分布范围内寻找表现最差的全局分布的方法,以获得更好的泛化性。我们研究的是内部分布变化,而不是寻找接近原始分布的全局分布。ANDMask是一种基于梯度的优化方法,属于特殊的学习策略。

为了公平起见,所有方法都使用具有两个模块的特征网络,每个模块有一个卷积层、一个池化层和一个批标准化层,以下一样。所有方法都用PyTorch实现。最大训练迭代设置为150。Adam优化器的权重衰减为 5 × 1 0 − 4 5 \times 10^{-4} 5×104。其余方法的学习率为 1 0 − 2 10^{-2} 102 1 0 − 3 10^{-3} 103。对于池化层,我们利用MaxPool2d。内核大小为 ( 1 , 2 ) (1,2) (1,2),步长为2。由于该领域中不存在常见的预训练网络,我们随机初始化所有网络。

一些OOD方法需要在训练中知道域标签,而我们的方法不需要,这更具挑战性和实用性。对于这些需要域标签的方法,我们随机分配批次中的域标签。我们进行训练-域-验证策略,将训练数据按8:2分割为训练和验证。我们调整所有方法以报告三次试验的平均最佳性能。DIVERSIFY中的 K K K视为超参数,我们通过调整 K K K记录最佳OOD性能。我们在 [ 2 , 3 , 5 , 10 ] [2, 3, 5, 10] [2,3,5,10]中搜索 K K K,在 [ 0.1 , 1 , 10 ] [0.1, 1, 10] [0.1,1,10]中搜索 λ 1 \lambda_1 λ1,在 [ 0.1 , 0.5 , 1 ] [0.1, 0.5, 1] [0.1,0.5,1]中搜索 λ 2 \lambda_2 λ2。我们在测试数据集上使用三种评估指标,包括评估广义分类能力的ID准确率,以及用于评估OOD检测能力的接收者操作特征曲线下面积(AUROC)和精确召回曲线下面积(AUPR),如下所示。

B. 手势识别

首先,我们在手势数据集的EMG上评估DIVERSIFY。肌电图(EMG)是一种典型的基于生物电信号的时间序列数据。手势数据集的EMG包含MYO Thalmic手环记录的原始EMG数据。手环配备了八个传感器,均匀分布在前臂周围,同时获取肌电信号。EMG数据依赖于场景和设备,这意味着同一个人在不同时间用相同设备执行相同活动时可能生成不同的数据(即跨时间的分布变化)或用不同设备在相同时间生成不同数据。收集了36名受试者的数据,他们执行了一系列静态手势,每列包含40000-50000条记录。它包含7个类别,我们选择了所有受试者都执行的6个常见类别进行实验。选择尺偏作为OOD类,其余的作为ID类。

对于EMG,我们将窗口大小设置为200,步长设置为100,这意味着两个相邻样本之间存在50%的重叠。我们使用 x ~ = x − min ⁡ X max ⁡ X − min ⁡ X \tilde{x} = \frac{x - \min X}{\max X - \min X} x~=maxXminXxminX对每个样本进行归一化。 X X X包含所有 x x x。最终维度为 8 × 1 × 200 8 \times 1 \times 200 8×1×200。我们随机将36名受试者分为四个域(即0、1、2、3),每个域包含9人的数据,不重叠。

结果如表II所示,我们得到了以下观察结果。1)我们的方法在每个任务上都取得了最佳性能,平均比第二好方法提高了约10%,这表明我们的方法具有良好的ID分类能力。2)对于使用MCP的方法,DIVERSIFY-MCP平均取得了最佳AUROC和AUPR。与第二好方法相比,DIVERSIFY-MCP分别提高了4.67%和2.33%。对于使用马氏距离的方法,DIVERSIFY-MAH平均取得了最佳AUROC和AUPR。与第二好方法相比,DIVERSIFY-MAH分别提高了14.06%和3.94%。这些结果表明,DIVERSIFY具有良好的异常检测能力。3)在大多数情况下,ID准确率与AUROC和AUPR有正相关,但也存在一些反例。CORAL平均在AUROC(MCP)上的表现比GroupDRO差,尽管ID准确率更高。因此,我们可能需要为不同目的选择不同的超参数和方法。4)与DIVERSIFY-MCP相比,DIVERSIFY-MAH有另一个显著改进,但一些方法(如ERM-MAH和ERM-MCP)的表现更糟糕。这些结果表明我们的方法可以学习更好的广义表示。对于时间序列OOD检测任务,马氏距离不受深度模型过度自信的影响,而MCP可能需要进一步调整。

C. 可穿戴压力和情感检测

我们进一步在更大数据集上评估DIVERSIFY,即可穿戴压力和情感检测(WESAD)。WESAD是一个公共数据集,包含15名受试者的生理和运动数据,实例数为6300万。我们利用胸戴设备的传感器模态,包括心电图、电导皮肤反应、肌电图、呼吸、体温和三轴加速度。我们将15名受试者分为四个域。我们使用与EMG相同的预处理,并选择类压力作为OOD类。

结果如表III所示,我们得到了以下观察结果。1)与EMG类似,我们的方法在平均ID准确率、AUROC和AUPR方面表现最佳,表明我们的方法在分类和OOD检测方面具有出色能力。2)对于某些任务,我们的方法在ID准确率方面比其他方法表现更差,这可能有两个原因。一方面,我们的方法依赖于适应DANN以利用子域和学习表示。当DANN表现不佳时,我们的方法可能会受到影响。另一方面, K K K是当前方法的超参数,我们可能由于搜索有限而错过最佳结果。3)无论方法在准确率方面表现如何,DIVERSIFY-MAH的表现最佳,这表明DIVERSIFY提取的特征非常出色。此外,与DIVERSIFY-MCP相比,DIVERSIFY-MAH仍有另一个显著改进。

D. 基于传感器的人类活动识别

最后,我们利用四个基于传感器的人类活动识别数据集构建了三个不同的OOD设置:DSADS、USC-HAD、UCI-HAR和PAMAP2。UCI日常和运动数据集(DSADS)包含来自8名受试者的19种活动,他们穿戴在身体5个部位的传感器。USC-SIPI人类活动数据集(USC-HAD)由14名受试者(7男7女,年龄21至49岁)执行12种活动,传感器绑在右髋部。UCI-HAR由30名受试者执行6种日常活动,腰部安装智能手机收集数据。PAMAP2包含9名受试者执行的18种活动数据,佩戴3个传感器。这些数据集来自不同人和位置,使用加速度计和陀螺仪,总实例数为1174.1万。对于DSADS,我们直接利用提供者分割的数据。最终维度形状为 45 × 1 × 125 45 \times 1 \times 125 45×1×125 45 = 5 × 3 × 3 45 = 5 \times 3 \times 3 45=5×3×3,其中5表示五个位置,第一个3表示三个传感器,第二个3表示每个传感器有三个轴。对于USC-HAD,窗口大小为200,步长为100。最终维度形状为 6 × 1 × 200 6 \times 1 \times 200 6×1×200。对于PAMAP2,窗口大小为200,步长为100。最终维度形状为 27 × 1 × 200 27 \times 1 \times 200 27×1×200。对于UCI-HAR,我们直接利用提供者分割的数据。最终维度形状为 6 × 1 × 128 6 \times 1 \times 128 6×1×128

  1. 跨人泛化(Cross-person)旨在学习针对不同人的广义模型。此设置利用DSADS、USC-HAD和PAMAP2。在每个数据集中,我们随机将数据分为四组。对于DSADS,我们选择跑步、上楼梯、下楼梯、跳绳和打篮球作为OOD类。对于USC-HAD,我们选择前跑和跳跃作为OOD类。对于PAMAP2,我们选择跑步、北欧健走和跳绳作为OOD类。
  2. 跨位置泛化(Cross-position)旨在学习针对不同传感器位置的广义模型。此设置使用DSADS,每个位置的数据表示不同域。因此,样本在第一个维度上分割为五个样本,最终维度形状为 9 × 1 × 125 9 \times 1 \times 125 9×1×125。我们选择跑步、上楼梯、下楼梯、跳绳和打篮球作为OOD类。
  3. 跨数据集泛化(Cross-dataset)旨在学习针对不同数据集的广义模型。此设置使用所有四个数据集,每个数据集对应一个不同的域。选择了六个常见类别。从每个数据集中选择两个属于相同位置的传感器,数据下采样到相同维度。最终维度形状为 6 × 1 × 50 6 \times 1 \times 50 6×1×50。我们选择上下楼作为OOD类。

ID分类结果如表IV所示,而OOD检测结果如表V所示。我们从这些结果中得到了以下观察结果。1)与EMG类似,我们的方法在平均ID准确率、AUROC和AUPR方面表现最佳,表明我们的方法在分类和OOD检测方面具有出色能力。2)当任务困难时:在跨人设置中,USC-HAD可能是最困难的任务。尽管它有更多样本,但包含14名受试者,只有一个位置的两个传感器,这可能带来更多学习难度。结果证明了上述观点,即所有方法在该基准上的表现都很差,而我们的方法具有最大的改进。3)当数据集显著更加多样化时:与跨人和跨位置设置相比,跨数据集可能更困难,因为所有数据集完全不同,样本受到受试者、设备、传感器位置和其他因素的影响。在此设置中,我们的方法显著优于其他方法。4)数据有限时:对于DSADS任务,训练数据数量有限。在这种情况下,增强多样性仍可以带来显著改进,我们的方法可以提升性能。5)对于时间序列OOD检测,最好利用马氏距离,因为它不受深度学习模型过度自信的影响。对于USC-HAD,DIVERSIFY-MAH平均在AUROC方面比DIVERSIFY-MCP提高了62%以上。

V. OOD泛化实验

我们在四个不同的时间序列分类任务上进行了评估:手势识别、语音命令识别、可穿戴压力和情感检测以及基于传感器的活动识别。设置和实现与OOD检测类似。除了上述对比方法外,我们还添加了更多最新的分类设计方法。Mixup是一种利用插值生成更多数据以获得更好泛化性的方法。我们的主要关注点是广义表示学习。RSC是一种自我挑战训练算法,通过操作梯度强制网络尽可能多地激活特征。它属于基于梯度操作的DG,而我们的方法是学习广义特征。GILE是一种针对跨人类活动识别的解耦方法。它基于VAEs,需要域标签。AdaRNN是一种两阶段的非差分方法,专为RNN设计,特定算法设计用于分割。我们的方法是通用的,是差分的,具有更好的性能。每段准确率是评估指标。

A. 手势识别

首先,我们在手势数据集的EMG上评估DIVERSIFY。我们随机将36名受试者分为四个域(即0、1、2、3)。图4(a)显示,使用相同的骨干网络,我们的方法在平均性能上表现最佳,比第二好方法高出4.3%。DIVERSIFY甚至超过了具有更强骨干的AdaRNN。

B. 语音命令

然后,我们采用一个常规语音识别任务,即语音命令数据集。该数据集包含30个不同单词的一秒音频记录。数据集包含65000个一秒长的30个短单词,由数千个不同的人录制。我们使用10个单词进行实验,将其余单词视为OOD类。图4(b)显示,DIVERSIFY在该数据集上的表现也最佳。


C. 可穿戴压力和情感检测

接下来,我们在可穿戴压力和情感检测(WESAD)数据集上评估DIVERSIFY。该数据集包含15名受试者的生理和运动数据,实例数为6300万。我们使用与EMG相同的预处理,并选择类压力作为OOD类。图4©表明,我们的方法在该数据集上的表现也优于其他方法。

D. 基于传感器的人类活动识别

最后,我们在基于传感器的人类活动识别数据集上评估DIVERSIFY。我们利用DSADS、USC-HAD、UCI-HAR和PAMAP2数据集。结果表明,我们的方法在ID准确率、AUROC和AUPR方面优于其他方法。这表明我们的方法在学习广义表示方面的有效性,适用于不同的时间序列数据集。

VI. 分析

A. 消融实验

我们进行了消融实验,以回答以下三个问题14:(1)为什么在步骤3中用类别不变特征获取伪域标签?如果我们用常见特征获取伪域标签,域标签可能与类别标签相关,这可能在学习域不变表示时引入矛盾,并导致性能一般。图5(a)的结果证明了这一点。(2)为什么在步骤2中使用细粒度域类别标签?如果我们利用伪域标签更新特征网络,可能会使表示严重偏向与域相关的特征,从而导致分类性能极差,这在图5(b)中得到了验证。如果我们仅利用类别标签更新特征网络,可能会使表示偏向与类别相关的特征,因此DIVERSIFY无法获得真正的潜在子域,如图5©所示。因此,我们应该使用细粒度域类别标签,以获得包含域和类别信息的表示。(3)潜在域越多越好?更多的潜在域可能不会带来更好的结果(图5(d)),因为一个数据集可能只有少数潜在域,引入更多可能与其固有数据属性矛盾。此外,更多的潜在域也使得获取伪域标签和学习域不变特征更加困难。对于泛化,我们可以从图6中获得与OOD检测类似的观察结果。

B. 参数敏感性

我们的方法主要有四个超参数:K(潜在子域的数量)、步骤3中对抗部分的 λ 1 \lambda_1 λ1、步骤4中对抗部分的 λ 2 \lambda_2 λ2以及本地训练轮数和总轮数。为了公平起见,本地训练轮数和总轮数的乘积是相同的值。我们在图7中评估了我们的方法在检测任务中的参数敏感性,其中我们更改一个参数并固定其他参数以记录结果。从这些结果中,我们可以得出以下观察结果:1)对于ID准确率,我们的方法在广泛范围内表现更好,证明了我们的方法是鲁棒的。2)对于AUROC,我们的方法在大多数情况下在广泛范围内表现更好,证明了我们的方法是鲁棒的。有时,我们需要仔细调整超参数以获得更好的AUROC。我们还评估了DIVERSIFY在OOD泛化任务中的参数敏感性,结果如图8所示。从这些结果中可以看出,我们的方法在广泛范围内表现更好,证明了我们的方法是鲁棒的。

C. 可视化研究

我们展示了一些可视化结果以展示DIVERSIFY的原理。对于检测任务,图9(a)和©显示DIVERSIFY可以学习更好的边界并产生较少的误分类,而图9(d)和(f)显示DIVERSIFY可以压缩和区分OOD样本。对于泛化任务,不同初始域标签的数据点在图10(a)中混合在一起,而DIVERSIFY可以表征不同的潜在分布并在图10(b)中将其很好地分离开来。图10(d)和©显示,与最新方法ANDMask相比,DIVERSIFY可以学习更好的域不变表示。总而言之,DIVERSIFY可以找到更好的表示以增强泛化。

D. 潜在子域的存在

我们的DIVERSIFY究竟能学到什么?在图11(a)中,对于EMG的第一个受试者,腕伸展类有多个潜在分布,显示了时间分布变化的存在:相同活动的分布可能会变化。对于空间分布变化,图11(b)中的EMG数据集显示我们的算法从第一个人和第三人的EMG数据中找到了两个潜在分布。这些结果表明,存在具有时间和空间分布变化的潜在分布。对于泛化,存在类似的现象。

E. “最坏情况”分布的定量分析

我们通过计算H散度[75]来展示我们的“最坏情况”分布的有效性。在图12(a)–(d)中,与初始域分割相比,我们的方法生成的潜在子域之间的H散度更大。根据命题3.2,域之间更大的H散度带来更好的泛化。这再次证明了DIVERSIFY在计算“最坏情况”分布情景中的有效性。

F. 不同的分割

不同的分割产生不同的结果。在某些情况下,训练和测试数据之间的分布差异最小,导致方法性能差异,如图12(e)所示。我们的方法始终表现出优越的结果,即使在不同的分割下也有超过10%的提升。

G. 可扩展性

为了证明我们的方法是可扩展的,我们还提供了与ODIN[25]的实现。OOD检测结果如图13(e)所示。我们有以下观察结果:1)我们的方法在EMG和WESAD上的平均AUROC和AUPR仍然是最好的,证明了DIVERSIFY的优越性。2)与ODIN的实现与MCP的实现表现相似,因为ODIN和MCP都依赖于模型的预测。对于某些数据集,例如EMG,与ODIN的实现比MCP有改进,但对于某些数据集,例如WESAD,与ODIN的实现表现更差。因此,对于具体应用,我们需要选择最佳的检测技术。

H. 不同的骨干网络

对于泛化,我们尝试证明DIVERSIFY对不同骨干网络是鲁棒的。图13(b)显示了使用小型、中型和大型骨干网络的结果(我们通过不同层数实现它们)。结果表明,较大的模型往往在OOD泛化性能上表现更好。我们的方法在所有骨干网络上都优于其他方法,表明DIVERSIFY在不同架构中始终表现出强大的OOD性能。我们还尝试了Transformer [94]作为比较的骨干网络。如图[95]所示,Transformer通常比CNN具有更好的泛化能力,这意味着使用Transformer改进更困难。从图13©中可以看出,每种方法在跨数据集的第一个任务上使用Transformer都有显著改进。与ERM相比,DANN和RSC没有改进,但我们的方法仍然有进一步改进,并取得了最佳性能。DANN甚至比ERM表现更差,这表明更准确的子域标签的重要性。总体而言,在所有架构中,我们的方法都取得了最佳性能。

I. 时间复杂度和收敛性分析

我们还提供了一些时间复杂度和收敛性分析。由于我们只在步骤2中优化特征提取器,我们的方法不会花费太多时间。图13(d)中的结果经验性地证明了这一观点。收敛性结果如图13(e)所示。我们的方法是收敛的。尽管存在一些小波动,但由于不同样本的不同分布,这些波动广泛存在于所有域泛化方法中。

VII. 限制与讨论

通过以下途径,DIVERSIFY可以更加完美。1)自动估计潜在分布的数量K:我们目前将其视为超参数。2)探索潜在分布背后的语义:添加更多人类知识是否可以获得更好的潜在分布?3)将DIVERSIFY扩展到检测和泛化之外的问题,如预测问题。

此外,我们认为动态分布不仅存在于时间序列中,还存在于一般的机器学习数据中,例如图像和文本。因此,将我们的方法应用于这些领域以进一步提高其性能是非常有趣的。

VIII. 结论

我们提出了DIVERSIFY,一个通用框架,用于学习时间序列检测和泛化的广义表示。DIVERSIFY采用对抗游戏,最大化“最坏情况”分布情景,同时最小化其分布差异。我们通过表示和预测分别提供了DIVERSIFY-MAH和DIVERSIFY-MCP用于检测,同时我们直接利用DIVERSIFY进行泛化。我们在不同应用中展示了其有效性。我们惊讶地发现一个数据集可以包含多个潜在分布。表征这些潜在分布将大大提高在未见数据集上的泛化性能。

VI. 结论

我们提出了DIVERSIFY,一个用于时间序列OOD检测和泛化的通用框架。DIVERSIFY通过一个迭代过程表征潜在分布并学习域不变表示。理论见解和在不同数据集上的广泛实验表明,DIVERSIFY在学习更广义特征和在OOD检测和泛化中取得更高性能方面的有效性。未来工作包括探索更先进的潜在域特征技术,并将DIVERSIFY扩展到其他模态。

声明

本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。

  • 9
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
IEEE TPAMI(IEEE Transactions on Pattern Analysis and Machine Intelligence)是一个涵盖模式识别、计算机视觉、图像处理和机器学习等领域的高质量期刊,其中也包括用于缺陷检测的研究。 以下是一些在IEEE TPAMI期刊上发表的用于缺陷检测论文: 1. "Automatic Defect Detection in X-Ray Images Using Convolutional Neural Networks"(使用卷积神经网络自动检测X射线图像中的缺陷)-- 该论文提出了一种基于卷积神经网络(CNN)的自动缺陷检测方法,该方法可以应用于各种类型的X射线图像中的缺陷检测。 2. "Unsupervised Defect Detection in Textured Materials Using Convolutional Autoencoders"(使用卷积自动编码器在纹理材料中进行无监督缺陷检测)-- 该论文提出了一种基于卷积自动编码器(CAE)的无监督缺陷检测方法,该方法可以有效地检测纹理材料中的缺陷。 3. "A Hierarchical Approach to Defect Detection in Semiconductor Wafer Images"(半导体晶圆图像缺陷检测的分层方法)-- 该论文提出了一种基于分层方法的缺陷检测方法,可以应用于半导体晶圆图像中的缺陷检测。 4. "Deep Learning-Based Defect Detection in Semiconductor Manufacturing"(基于深度学习的半导体制造中的缺陷检测)-- 该论文提出了一种基于深度学习的缺陷检测方法,可以应用于半导体制造中的缺陷检测,并且在实验中取得了良好的结果。 这些论文都展示了IEEE TPAMI作为一个重要的期刊,提供了广泛的研究和应用领域,包括缺陷检测
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小白学视觉

您的赞赏是我们坚持下去的动力~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值