RAINCOAT-Domain Adaptation for Time Series Under Feature and Label Shifts

RAINCOAT

  • “Domain Adaptation for Time Series Under Feature and Label Shifts” (He 等, 2023, p. 1) (pdf)
  • ICML 2023
  • 论文地址
  • 代码地址

摘要

背景

无监督域适应(UDA):将在源域训练的模型迁移到未标记的目标域

两个问题

  1. 不同域之间动态时间结构的变化,导致时间和频率表示中的特征偏移,使得迁移复杂的时间序列模型面临挑战
  2. 源域和目标域的标签分布可能差异显著,这给解决标签漂移和识别目标域中独特的标签带来困难

提出方法

RAINCOAT:跨域对齐时间和频率特征,并纠正错位以促进私有标签的检测,从而解决特征和标签偏移问题

1.引言

1.1 现有方法存在的问题

  • 神经网络在时间序列任务中虽表现优异,但面临域偏移泛化瓶颈:测试数据与训练分布差异(如医疗多站点数据差异)导致性能骤降,且传统方法易受虚假相关性干扰。
  • 域适应(DA)技术通过跨域特征对齐缓解此问题,但时间序列DA存在双重挑战:一方面,现有方法忽视时间-频率特征的复合偏移​(如机械故障检测中时间动态骤变而频谱稳定),导致模型陷入捷径学习陷阱;
  • 另一方面,​通用DA​(不预设域间标签重叠)在时序场景中尚未有效解决,难以应对私有标签​(如罕见病检测)和混合型偏移。

1.2 提出解决方法

提出RAINCOAT方法——首个支持闭集/通用双模式DA的时间序列域适应框架:

  1. 构建双编码器分别捕获时间与频率特征偏移模式;
  2. 基于Sinkhorn散度实现跨域对齐,其理论优势超越传统度量
  3. 创新**"对齐-校正"机制**,通过迭代修正目标域表征差异检测未知类别。

实验表明,RAINCOAT在人体行为识别、脑电预测等任务中,闭集DA性能提升达9.0%,通用DA提升16.33%,突破现有方法对复合偏移的适应性边界。

2.相关工作

2.1 一般域适应(DA)​

传统DA方法聚焦三大方向:

  • 对抗训练:通过域鉴别器迫使特征难以区分(如DANN),但依赖对抗优化稳定性;
  • 统计散度:最小化域间分布差异(如MMD、CORAL),但需设计有效度量;
  • 自监督:利用无监督任务(如重建)学习域不变特征(如DeepCORAL)。
    局限:多数方法未显式建模时间序列的复合特征偏移,且依赖闭集假设。
    RAINCOAT定位:融合统计散度(Sinkhorn)与自监督思想,兼顾特征对齐与鲁棒表征。

2.2 时间序列域适应

现有工作分三类:

  • 对抗框架:如VRADA利用变分递归网络对齐时序依赖;
  • 统计对齐:如SASA通过变量关联结构对齐条件分布;
  • 自监督策略:如DAF结合注意力与重建任务分离域不变/特定特征。
    局限:① 忽视时间-频率双重特征偏移(如机械故障中频谱稳定但时序突变);② 默认标签空间一致,无法处理目标域私有类别。
    RAINCOAT创新:引入双编码器显式建模时间与频率特征,并设计通用DA机制应对标签偏移。

2.3 通用域适应(UniDA)

UniDA旨在处理未知标签重叠场景,主流方法包括:

  • 不确定性阈值法:如UAN、CMU基于样本不确定性筛选公共类别,但需人工调参;
  • 聚类共识法:如DANCE、DCC通过跨域聚类寻找共有类别,易受聚类质量影响;
  • 最优传输法:如UniOT利用跨域匹配检测公共样本,但共享编码器限制域适应性。
    局限:依赖阈值设定、聚类不稳定或忽略域偏移下的表征退化。
    RAINCOAT突破:提出“对齐-纠正”流程,通过迭代修正目标域表征差异,无监督识别私有标签,避免阈值依赖与聚类偏差,结合最优传输理论实现稳健跨域对齐。

总结:现有DA方法在时间序列上面临频率特征忽视、标签偏移处理不足及通用场景适应性弱等挑战。RAINCOAT通过双域编码、Sinkhorn对齐及动态纠正机制,首次实现时间序列闭集/通用DA的统一框架,攻克复合特征与标签偏移难题。

3.预备知识

3.1 离散傅里叶变换(DFT)

Discrete Fourier Transform,给定一个具有d个通道和T个时间点的序列样本x,通过将长度为T的1维DFT应用于每个通道,然后使用1维逆DFT将其转换回,将其转换到频率空间,用a(amplitude)和p(phase)分别表示提取的幅度和相位,定义如下:
DFT

4.RAINCOAT方法

总框架

4.1 时间频率特征编码器(G_{TF})

动机:时序数据特征偏移可能同时发生在时间和频率域,仅对齐时间特征可能无法处理频率域中的变化,导致性能下降。此外,频率特征具有域不变性,其在域对齐中具有独特价值。
G T F G_{TF} GTF 工作流程:

  • 编码频率特征 e F , i e_{F,i} eF,i
    1)平滑: x i = S m o o o t h ( x i ) x_i=Smoooth(x_i) xi=Smoooth(xi)
    避免频率泄漏(由DFT的周期性假设导致的噪声)
    2)DFT: v i = D F T ( x i ) v_i=DFT(x_i) vi=DFT(xi)
    时间序列转换到频率域,提取幅度和相位信息
    3)卷积:KaTeX parse error: Undefined control sequence: \* at position 22: …{v}i=\mathbf{B}\̲*̲v_i
    B \mathbf{B} B 权重矩阵,提取有助于域适应的特征,同时保留信号的低秩结构,从而促进源域和目标域之间的对齐
    4)转换: a i , p i ← v i a_i,p_i←v_i ai,pivi (使用方程2)
    幅度和相位特征通常比原始的时间序列数据更具域不变性,提高模型的泛化能力、鲁棒性和计算效率
    5)提取: e F , i = [ a i ; p i ] e_{F,i}=[a_i;p_i] eF,i=[ai;pi]
    频率空间特征 e F e_F eF 是幅度和相位的连接
  • 编码时间特征 e T , i e_{T,i} eT,i
    使用卷积神经网络(CNN)提取时间特征
  • 将频率特征和时间特征进行拼接 z i = [ e F , i ; e T , i ] z_i=[e_{F,i};e_{T,i}] zi=[eF,i;eT,i] ,形成最终的特征表示

4.2 时间频率特征的域对齐

  • 动机:源域和目标域的频率特征分布有差异,且频率特征既有不相交的支撑集(即特征空间的范围),像总变差距离或Kullback-Leibler散度这样的距离度量不能有效捕获这种差异
  • 解决方法:RAINCOAT采用了Sinkhorn散度来衡量和对齐频率特征。Sinkhorn散度是一种熵正则化的最优传输距离,能有效处理分布支撑不相交的情况。
  • 对齐过程:通过最小化源特征 z i s z_i^s zis 和目标特征 z i t z_i^t zit 之间的Sinkhorn散度(域对齐损失),模型学习如何调整目标域的特征分布,使之与源域的特征分布更加一致。

4.3 纠正步骤

  • 目标:拒绝目标域中的未知样本,减少负迁移
  • 方法:在目标样本上的重建任务更新编码器和解码器,使目标特征在潜在空间中重新定位
  • 效果:更新后,更好的保留目标域中已知类别的特征,同时让未知类别的特征远离已知类别,便于后续检测未知类别

4.4 检测目标私有样本

  • 特征移动分析:计算目标特征在纠正步骤前后与各自类别原型的距离变化( d i a c = ∣ d ( Z a , i t , W c ) − d ( Z c , i t , W c ) d^{ac}_i=|d(Z^t_{a,i},W_c)-d(Z^t_{c,i},W_c) diac=d(Za,it,Wc)d(Zc,it,Wc) ,W 类别原型,a,c 纠正前后特征)。
  • 双峰测试:对每个类别的dac值进行双峰测试,以确定是否存在两个不同的移动模式。
  • 聚类阈值:如果检测到双峰结构,使用K均值聚类找到两个质心,将较大的质心值作为阈值来拒绝未知样本。
  • 推理过程:在推理阶段,利用训练好的分类器和特征编码器,通过分析目标样本特征的移动情况,结合双峰测试和聚类结果,来识别和拒绝目标域中的私有样本。

4.5 RAINCOAT模型概述

  1. 模型组件
    • 时间频率编码器(GTF):提取时间序列的时域和频域特征。
    • 分类器(H):基于编码器提取的特征进行分类。
    • 辅助解码器(UTF):通过重建任务辅助学习更好的特征表示。
  2. 训练阶段
    • 对齐阶段:使用Sinkhorn散度对源域和目标域的特征进行对齐 L A L_A LA,同时最小化重建损失 L R L_R LR (促进Ds的语义特征学习)和分类损失 L C L_C LC (指导模型正确分类样本)。
      L R ( x i s , x ~ i s = U T F ( G T F ( x i s ) ) ) \mathcal{L}_R(x_i^s, \tilde{x}_i^s=U_{TF}(G_{TF}(x_i^s))) LR(xis,x~is=UTF(GTF(xis))) L A ( z i s , z a , j t ) \mathcal{L}_A(z_i^s, z_{a,j}^t) LA(zis,za,jt) L C ( y i s , y ^ i s = H ( G T F ( x i s ) ) ) \mathcal{L}_C(y_i^s, \hat{y}_i^s=H(G_{TF}(x_i^s))) LC(yis,y^is=H(GTF(xis))) d ( z a , j t , w ) d(z_{a,j}^t, \mathbf{w}) d(za,jt,w)
    • 纠正阶段:针对目标域样本,通过重建任务进一步更新编码器和解码器,以更好地适应目标域数据。
      L R ( x i t , x ~ i t = U T F ( G T F ( x i t ) ) ) \mathcal{L}_R(x_i^t, \tilde{x}_i^t=U_{TF}(G_{TF}(x_i^t))) LR(xit,x~it=UTF(GTF(xit)))
  3. 推理阶段
    • 利用训练好的编码器和分类器,分析目标样本特征在纠正前后的变化。
      d i a c = ∣ d ( Z a , i t , W c ) − d ( Z c , i t , W c ) ∣ d^{ac}_i=|d(Z^t_{a,i},W_c)-d(Z^t_{c,i},W_c)| diac=d(Za,it,Wc)d(Zc,it,Wc)
    • 通过双峰测试和聚类方法检测目标域中的私有样本。
  4. 模型优势
    • 同时处理特征偏移和标签偏移,适用于闭集和通用域适应。
    • 通过时间频率特征编码器和Sinkhorn散度对齐,提高跨域特征的可转移性。
    • 纠正步骤和目标私有样本检测机制,进一步提高模型对目标域的适应性和鲁棒性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值