NeurIPS 2024 | 摆脱任务孤立：中科大提出任务级别时空持续学习新框架-CSDN博客

本文链接：https://blog.csdn.net/c9yv2cf9i06k2a9e/article/details/143318009

时空学习技术现已成为城市智能和可持续发展的驱动力。尽管目前可获得的数据在模态、类型、规模上不断增长，现有时空学习模型几乎全部为独立训练和部署，未能打通数据内在的依赖关系，从而导致类似模型需重复训练、新任务冷启动挑战等瓶颈，多源多任务数据的集体智慧利用率不高。

为提升不同源数据的集体智能，打破时空学习模型相对孤立、突破任务侧泛化难的挑战，中科大数据智能研究团队（苏州）提出了任务级别时空持续学习新框架。

研究团队成员首先构建了基于上下文-数据观测交互的多维度表征学习方法，提高数据维度间关联的挖掘能力，同时提出滚动-自适应学习策略来保留任务间共性和更新任务个性信息，将其建模为集体智慧和个体智慧，进而建立训练-微调下的多任务协同训练与学习机制，实现了任务级的持续滚动学习和群智赋能。

相关研究现已被 NeurIPS 2024 收录，并被接收为 Oral Presentation。

论文标题：

Get Rid of Task Isolation: A Continuous Multi-task Spatio-Temporal Learning Framework

论文链接：

https://arxiv.org/abs/2410.10524

代码链接：

https://github.com/DILab-USTCSZ/CMuST

引言

▲ 图1. 城市数据模式和学习任务的演化

时空学习已成为实现智慧城市和便捷生活的核心技术，广泛应用于城市交通出行和基于位置的兴趣点（POI）推荐等领域，推动了城市经济的活力发展。

然而城市时空系统高度动态，随着新数据形式的不断涌现，数据模式的泛化和任务适应性问题日益突出，正如图1所示：1）随着城市扩展和新交通枢纽的建立，交通流量模式也随之演变，模型面临分布外泛化的挑战，2）同时随着公众对道路安全的关注，交通事故预测成为智能交通中的新兴任务，然而这一任务往往面临冷启动问题。

传统的特定任务模型通常假设数据在单一任务中遵循独立同分布，且数据是密集可用的，这在面对数据稀疏场景和新任务时表现出较差的泛化能力。

在时空领域，不同数据类型和数据域之间往往存在共性依赖关系，这对于协同学习至关重要，尽管多任务学习和时空预测技术不断取得进展，但如何通过多任务学习利用不同任务和数据源分别强化个体任务，打破模型之间的孤立性，仍缺乏系统性的解决方案，因此，持续多任务时空学习框架面临 2 个挑战：

如何自适应地解构数据维度和领域之间的复杂关联，并捕捉这些依赖关系，从而改善时空表示，提取共同模式以增强任务表现。
如何通过任务共性和个性联合建模多任务数据集，利用提取出的任务共性和多样性强化各自的任务，打破任务孤立的局限。

在我们的工作中，提出了一个连续多任务时空学习框架（CMuST），用于对集成城市系统中的多个数据集进行联合建模，以提升各自的学习任务。我们首先设计了一个多维时空交互网络（MSTI），用于分析跨数据维度的交互模式，涵盖了上下文-空间、上下文-时间的交互以及时空维度中的自交互。MSTI 通过这些交互优化时空表示，并提供解耦模式以支持任务共性的提取。

在此基础上，我们提出了滚动适应（RoAda）训练方案，能够迭代地捕捉任务间的一致性和特定任务的多样性。在 RoAda 中，为了保留每个任务的特性，我们设计了特定任务的提示机制，利用自编码器压缩数据模式，确保独特的模式不受其他任务影响。

为了捕捉任务共性，我们提出了权重行为建模策略，迭代探索可学习权重的最小变化，稳定连续训练过程中的权值，以封装任务间的共性。该策略不仅通过任务的滚动适应实现稳定学习，还通过共享模式有效缓解了新任务的冷启动问题。

最后，我们应用了特定任务的微调方法，利用任务共性和独特的任务提示，进一步增强了每个任务的表现。

我们的主要贡献总结如下：

首次提出了连续多任务时空学习框架 CMuST，能够对同一时空域内的多个学习任务进行联合建模，不仅从整体上强化了个别相关任务的学习，还帮助更好地理解动态时空系统中的协同机制。
技术上，提出了两个核心学习模块：MSTI 和 RoAda，分别用于剖析多任务学习中的多维影响和交互，迭代更新任务共性，并生成个性化的任务特性，实现持续的任务自适应。
我们在三个城市的基础上构建了基准数据集，其中两个城市的时空域内包含至少三种类型的观测数据。广泛的实验证明了该方法在有限数据下增强单一任务性能的优势，以及其在任务级持续学习和解释能力上的卓越表现。

方法

连续多任务时空学习框架旨在通过三个协同的组件来推进城市智能，分别是数据表示和集成、多维时空交互和滚动适应。

2.1 数据表示和集成

我们将主要观测数据，即城市数据集的预测目标记为，然后通过 MLP 映射为时空表示。

类似地，由经度和纬度坐标组成的空间标记与线性层结合以产生空间表示。

时间标记由星期几、一天内的时间和时间戳组成，并进一步压缩为隐藏表示，使模型能够捕捉时间数据的周期性和时序性特征。

是一个特定于任务的提示，以确保任务感知，并集成到最终的嵌入中。对给定任务：

将空间、时间和观测嵌入与任务提示结合成，以创建一个全面和集成的数据表示，并进一步实现它们之间的交互建模。在下面的部分中，我们将使用作为特定任务的表示形式。

2.2 多维时空交互

2.2.1 空间-上下文的交互

我们首先构建了一种多头交叉注意力架构（MHCA）来定量研究空间表示与主要观测值之间的相互作用，其中空间和观测分量交替用作查询 Q 和键值 KV 对：

在这里，让变量和表示空间指标和主要观测值，即和。然后通过以下转换生成查询、键和值，

将输入数据转换为注意空间的维度，和分别表示空间特征和观测特征的切片。计算注意力值后，表征被带入前馈网络（FFN）以增强学习能力。

是 Layer Norm，然后将结果和在各自的维度上连接回作为，以作为封装了复杂的跨维度关系的细化特征丰富的表示。

2.2.2 时间-上下文的交互

将表示转置为以便于时间维度的注意力计算，其中表示为序列长度。后续步骤与空间-上下文交叉注意力机制相似，因此时间-上下文交互（TCCI）可以表示为，最终表示成为空间和时间维度交叉交互的结果。

2.2.3 空间和时间层面的自交互

使用自注意力来对不同维度的表征进行自我交互：

在这个多头注意力（MHA）配置中，查询 Q、键 K 和值 V，都是从整个表示形式派生出来的，而不是单个的切片。然后输出经过 FFN、非线性变换和 LN 进一步处理，以稳定和丰富特征表示。结果为在表示时间自交互（TSI）的结果。

然后将张量转置为。最终的空间自交互（SSI）计算类似于时间版本，它细化了空间交互并聚集了空间节点的特征，即。计算得到的张量为，表示综合多维交互的结果。

MSTI 提取了不同的交互，包括通过在时空各自的表示上设计交叉注意力的时空域交互，以及各自维度上的自交互，增强数据关系学习，并支持跨任务域的共性提取。

2.3 滚动适应

RoAda 主要由共性提取的预热阶段和特定任务的细化阶段两个部分组成。在任务滚动之前，通过构建数据压缩后的提示来区分每个任务的个性化，以利用共性和多样性来促进个体任务适应。

2.3.1 共性提取的预热

预热阶段通过权重行为建模来设计，吸收任务之间的规律性，我们从任务开始，通过独立训练模型，直到其性能稳定。将表示为 MSTI 学习到的模型，训练阶段可以形式化描述为：

其中为初始化权重，为任务的训练数据集，为模型收敛时的权重。

之后，我们的模型通过加载相应的任务提示和数据集将学习任务从转换到。这种转换涉及到一个关键步骤，即仔细存储模型权重的演化行为：

通过中权重的演化行为反映任务级的稳定性和变化来捕获共同的模式，即。

权重集为任务最终权重和演化的权重合并在一起，它显式地捕获任务之间的权重过渡。引入集体方差来捕获这种稳定性，并采用阈值来解缠学习过程中的稳定和动态权重，即：

其中表示从到不同训练迭代的元素方差，表示权重值的波动程度。方差越低，稳定性越高，表明每次更新的权重变化最小。

之后，稳定的权重然后冻结，模型过渡到下一个任务，使用稳定的权重作为进一步训练的初始化。

与前面类似，这个过程重复进行，直到完成任务。用类似的方法可以得到。

由于不涉及共性提取，我们随后将与加载，以实现完整的滚动过程。

跨连续任务的稳定权重，作为可以最终产生一个鲁棒的多任务学习参数，通过迭代稳定权重选择，封装了良好提取的公共模式，它还可以通过利用多个任务来服务于集体智慧，从而增强后续学习的泛化。

2.3.2 特定任务的细化

使用剩余的权重用特定任务的提示进行更新使得 CMuST 能够将个体智能融入集成模型并进行自我调整，以更好地适应每个任务的独特模式，即：

其中被调优以最大化当前任务的性能，表示精化后特定于任务的子模型。表示模型参数的调整过程。

RoAda 不仅确保了跨任务的共性，而且每个模型还通过压缩的任务级模式为其各自的任务进行了优化调整，为 CMuST 提供了通过集体和个体智能以实现峰值性能。

实验

3.1 数据集

在数据集方面，我们收集和处理了三个真实世界的数据集，涵盖三个时空域下的多个任务。分别为：

NYC：包括纽约市曼哈顿及其周边地区三个月的人群流动和出租车打车数据，包括四个任务: ，，和。
SIP：包含苏州工业园区和三个月的记录。
Chicago：由 2023 年下半年从芝加哥收集的交通数据组成，包括三个任务：，和。

3.2 实验设置

我们的实验设计为单任务和多任务学习来验证城市系统中的多任务学习是否可以竞争单任务学习，并进一步展示连续多任务学习的优越性：

对于单任务学习，我们将不同的数据集作为单独的数据集，分别训练和测试模型，其中比较模型和我们的 CMuST 分别用不同的随机种子重复训练5次，取平均结果。
对于多任务学习，由于现有模型没有设计任务级的连续学习方案，本文将同一城市系统中不同类型数据的特征对齐到同一城市图中，将数据特征连接起来用于训练模型。学习目标遵循每篇论文的相应陈述。对于我们的 CMuST，我们实现了方法描述中的连续和迭代的模型更新。通过确保每个模型的所有数据输入都是相等的，很好地结合了公平性。

3.3 预测结果

3.4 实验结果分析

CMuST 在所有数据集上的大多数指标都优于其他基线，其中基于多任务的方法比基于单任务的方法平均提高了的性能。这一结果强调了交叉注意力机制在解耦多维依赖方面的有效性，它不仅增强了时空表征能力，还能轻松提取任务之间的共同关联，从而使每个单独的任务都能从良好提取的共同模式中获益。
针对特定任务构建数据稀缺场景，即减少部分空间节点，以及扩展时间间隔来减少样本数量，以研究 CMuST 在数据有限的挑战性场景下的鲁棒性。结果表明，从其他任务中吸收公共信息可以帮助在单个任务中更好地预测，即使它在空间和时间维度上的数据有限。这表明多任务预测放松了单个任务对数据量和分布的要求，其中共享的共性有效地捕获和传递了任务之间的一致性和多样性。

3.5 可视化结果

我们从注意力的演化、任务增长等方面来更具体地验证 CMuST 的有效性。

从可视化的结果可以发现：

随着任务的不断学习，各个维度的关系和交互变得独特并保持稳定，显示了维度级别关系的巩固过程。通过对权重行为进行建模，这种上下文和观察之间的统一关系和交互，可以进一步提取跨任务时空交互的一致性。
随着时空域内任务数量的增加，每个任务的性能随着更多任务的加入而提高，这表明任务不再是孤立的，而是通过吸收共同表示和交互信息来获得集体智慧。

总结

本文提出的 CMuST 使时空学习摆脱了孤立，其中 MSTI 被设计用来剖析复杂的多维数据相关性，以揭示解缠的模式。同时为提取任务的一致性和特定任务的多样性，提出一种滚动学习方案 RoAda，对权重行为进行建模以实现集体智慧，并通过自编码压缩域数据来构建特定任务的提示，以增强特定任务的精化以实现增强。

我们相信 CMuST 不仅可以帮助更好地理解城市系统中的集体规律和智能，还可以显著减少重复训练并改善数据利用，这正在逐步接近未来城市中的绿色计算。在未来的工作中，我们将进一步研究开放城市系统中的集体智能，它有可能推广到更广泛的领域，如能源和环境，以人为本的计算。

更多阅读