KDD 2024 | 检测并优化时序预测中的分布偏移问题

数据派THU

于 2024-09-08 17:11:43 发布

阅读量267

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247644462&idx=1&sn=8cabdb5ef6e67ff4cac7dc2ff726cfe6&chksm=e820b3c6e3421cfb64a52b22d95eb9c4b8348a5958df2dac32a3bc444573b6003c37b99a9a42&scene=126&sessionid=0

版权

来源：时序人
本文约3000字，建议阅读5分钟
本文介绍了一种通用的校准方法，用于检测和调整经过训练的模型中的 CDS。

近年来，将深度学习模型引入时间序列预测领域取得了显著成功。从数据生成的角度来看，现有模型容易受到时间上下文（无论是否被观测到）驱动的分布偏移的影响。这种由上下文驱动的分布偏移（CDS）会在特定上下文中引入预测偏差，并对传统的训练范式构成挑战。来自浙江大学的研究团队提出了一种通用的校准方法，用于检测和调整经过训练的模型中的 CDS，目前该工作已被 KDD 2024 接收。

【论文标题】

Calibration of Time-Series Forecasting: Detecting and Adapting Context-Driven Distribution Shift

【论文链接】

https://arxiv.org/abs/2310.14838

【代码链接】

https://github.com/HALF111/calibration_CDS

背景介绍

01 时间序列中的上下文分布偏移（CDS）

在时间序列中，分布偏移的问题普遍存在——所谓的分布偏移，即指时间序列统计特性以及分布会随着时间不断变化。这会导致训练集和测试集的分布不一致，那么按照机器学习范式在训练集训练的模型、在测试集上就会出现性能下降。

特别地，我们发现这种偏移通常是由一些上下文因素(称为context)驱动的。例如时间阶段（temporal segment）和周期相位（periodic phase）等均为重要的因素。

对于时间阶段，例如我国人均 GDP 存在逐年上涨的趋势，那么 2014 年的数据和 2024 年的数据分布会存在不同；对于周期相位，例如商场的人流量会随着每周的工作日和周末出现周期性变化，那么周三的数据和周六的数据分布也会存在不同。这些例子可以佐证这些上下文因素是会对分布情况造成影响的。

在本文中，我们将这种问题称为：上下文驱动的分布偏移（Context-driven Distribution Shift, CDS）。

图1 左图为上下文：时间片段；右图为上下文：周期性阶段

02 CDS的影响

CDS 同样会影响模型的性能。例如我们以周期相位为例，分别统计了模型在不同的周期下的数据上的残差，以及总体数据上的残差（残差能够反映模型拟合性能的好坏）。

从图2中可以发现：总体残差是无偏的（总体的残差接近于一个均值为零的正态分布），但是特定上下文下的残差却存在偏差（即在 47th phase 和 32nd phase 这两个不同上下文内的残差分布的均值均不为零）。这说明受到上下文的影响，模型容易学到虚假的相关性，难以同时对每个上下文的数据都得到最优的性能。

图2 （条件）残差分布

03 论文贡献

针对 CDS，我们提出了一个"检测+微调"的模型校准框架。具体包括以下两个部分：

Reconditionor：基于残差的上下文分布偏移检测器（Residual-based Context-driven Distribution Shift Detector）。通过计算总体的残差分布以及各个 context 下的残差分布间的KL散度，量化并检测模型对 CDS 的敏感程度。该值越高、则说明模型受CDS影响越强。
SOLID：样本级上下文微调器（Sample-level Contextualized Adapter）。对于每个测试样本，构建一个和该测试样本有相似上下文的子数据集，并用该子数据集微调现有模型的预测层以校准其预测。理论分析证明，这一微调策略相较于不做微调/重新训练新预测层而言，能得到偏差-方差间的平衡。

此外，本文的方法也是模型无关的。对于已训练好的模型，只需要在测试时多做一个微调的校准步骤即可。

主要方法

图3 校准框架的流程

01 Reconditinor-基于残差的

上下文分布偏移检测器

首先，我们提出了 Reconditionor，这是一个基于残差的检测器。其用于检测并量化模型受 CDS 的影响程度。

具体而言，我们计算模型在各上下文下的残差分布相较于总体残差分布的KL散度，用于检测分布偏移的程度。事实上这个表达式也可以转化成残差和上下文之间的互信息，可以理解为知道上下文后对于残差的不确定度的减少量。该值的计算公式如下：

02 SOLID-样本级上下文微调器

其次，我们提出了 SOLID，这是一个样本级别的基于上下文的微调器。

对于每个测试样本，SOLID 构建一个和当前测试样本有相似上下文分布的样本的子数据集，并用该子数据集微调现有模型的预测层，从而对其做进一步的校准。

（1）SOLID 怎么做？

在 SOLID 中包含两个关键点：一个是需要做样本级别的微调，另一个则需要构建一个包含相似上下文分布的样本的子数据集。

样本级别微调（Sample-level adaptation）：考虑到时间序列中的上下文也是一直在变的，因此即便对于一个校准后的模型，也很难对于所有样本适用。基于此，对于每个样本独立地去做微调是更加合理的。
相似上下文分布的子数据集（Contextualized dataset）：考虑到对于待预测样本，无法获取其真实值，从而无法直接用其来做微调。因此我们这里需要做一次数据增强，从历史数据中找出和当前样本有相似上下文分布的那些样本。