前言
时间序列分析(Time Series Analysis, TSA)研究存在一个长期被忽视的问题:大多数 TSA 工作仅考虑数值序列,而忽略了其他模态,导致信息不完整和非语言化的交互。相比之下,语言和视觉等模态近年来不仅经历了爆炸性发展,更呈现出密集的多模态融合,如 GPT 和 Qwen 系列等强大的基础多模态模型。作者指出:近期许 TSA 工作正在形成一个新的研究领域,即多模态赋能的时间序列分析(MM4TSA)。总体来看,这些 MM4TSA 的研究共享一个高层次的动机:如何从多个模态中获益来助力时间序列分析?
本文首次对这一新兴领域进行了全面的综述和详细的展望。具体而言,本文系统地讨论了三个角度的优势:(1)复用其他模态的基础模型,以实现高效的时间序列分析;(2)多模态扩展,以提高时间序列分析的性能;(3)跨模态交互。以实现更先进的时间序列分析。本文进一步根据引入模态的类型(包括文本、图像、音频、表格等)对相关工作进行分类,并在每个角度下进行详细讨论。最后指出当前研究存在的空白与未来的研究机会,包括复用模态的选择问题、异构模态的组合问题和未见任务的泛化问题,这些问题分别对应上述三个优势。此外,作者发布了一个包含最新论文和相关资源的GitHub仓库。
TSA的挑战与机遇
时间序列分析(TSA)在多个领域具有重要的应用,例如能源预测、交通规划以及流行病政策制定。然而,长期以来存在一个被广泛忽视的问题,即 TSA 研究通常忽略其他模态,即大部分 TSA 工作只考虑数值序列数据,导致信息不够完整且无法自然交互。
近期,语言和视觉等多个“更丰富”的模态经历了快速的发展,不仅各自独立成为重要领域,还形成了以 GPT 和 Qwen 系列为代表的强大的基础多模态模型。相比之下,时间序列模态依旧相对未被充分探索并处于孤立状态。我们注意到最近许多 TSA 研究开始尝试打破这一僵局,其共同的高层动机是:“如何让 TSA 从多个模态中获益?”。
本综述首次对新兴的 MM4TSA 领域进行全面地调研,并系统地指出三种关键的受益途径:(1)TimeAsX:复用其他模态的基础模型以实现高效的 TSA;(2)Time+X:多模态扩展以增强TSA;(3)Time2X 和 X2Time:跨模态交互以实现更先进的 TSA。本综述进一步地全面涵盖了语言、视觉、表格和音频等多个模态,并根据模态类型对已有研究进行分类。此外,本综述还从金融、医疗和时空数据等具体领域引入了代表性研究,清晰地展示了上述三种受益途径的实际价值。基于这一体系,本综述指出每种受益途径当前面临的主要研究空白:(1)选择哪种模态进行复用;(2)如何处理异构模态的组合;(3)如何泛化至未见任务,并探讨可能的解决方案,以启发未来研究。
综述概览
本综述所提出的分类体系如图1所示。据作者所知,这是首个针对新兴的 MM4TSA 领域的综述,系统性地提出了三种有益的方法,全面地考虑了多种模态,具体介绍了应用案例,并深入讨论了研究空白与未来展望。已有的综述主要关注复用大型语言模型(LLMs)来进行时间序列分析,即本综述中的 Time As Text(§3.1)。本综述将逐一详细介绍每个分支,并结合代表性研究进行讨论。由于篇幅受限,本文简要地介绍每个章节,和部分代表性工作。详细内容,请阅读综述原文。
TimeAsx
语言和视觉模态拥有海量数据和成熟的基础模型,例如 GPT、DeepSeek、Llama 和 Qwen 系列。TimeAsX 的思路是将时间序列转换为其他模态,复用这些模态的基础模型,以少样本或者零样本的方式实现高效的 TSA。本文进一步根据所复用的模态,将此类 TimeAsX 研究划分为文本、图像、音频和表格,并逐一介绍。本文先介绍通用的研究,然后介绍具体领域的应用。
01
Time As Text(时间序列即文本)
这类研究的动机主要基于语言和时间序列都具有序列结构,以及认为 LLMs 所具备的通用能力可以被应用到 TSA 中的观点。此类研究的主要挑战在于如何使时间序列数据与LLMs更好地对齐,以实现更有效的理解和激活。我们将相关文献分为三类并分别列举代表性工作:(1) 不经训练的直接对齐方法;(2) 在现有词汇表下进行训练以实现对齐的方法;(3) 扩展词汇表后进行训练以实现对齐的方法。
- 直接对齐
这类方法无需对 LLM 架构进行任何更新,而是主要关注如何将时间序列数据直接作为文本输入给 LLM,包括更适合的分词策略,例如 LLM-Time [1], 和更具体的任务提示,例如 LSTPrompt [2].
- 训练对齐 (无需扩展词汇表)
这类研究通过将时间序列视为现有词汇表中的句子来实现时间序列与 LLM 的对齐。由于语言词汇表和时间序列切片的维度都很高,多数研究倾向于通过与特定时间序列任务的目标相关联的方式简化训练过程。具体来说,通过增加从时间序列到文本(或反之)的转换模块,将语言模型视作时间序列模型。根据这些转换模块的工作方式,这类研究可以被进一步分为:(1)嵌入对齐,如 GPT4TS [3];(2)原型对齐,如 Time-LLM [4];(3)上下文对齐,如 DECA [5]。
- 训练对齐 (扩展词汇表)
这类方法通过扩展 LLM 的词汇表来与时间序列数据集对齐:它们将时间序列数据视为一种“外语”中的句子,并使 LLM 适应这种新的语言,例如 Chronos [6]。
02
Time As Image(时间序列即图像)
将时间序列重新表述为图像以增强特征感知是一种自然的思路,这与人类感知模式的方式类似,并且长期以来一直是研究关注的重点。根据图像类型的不同可以细分为如下方法:
- 折线图
使用时间序列的折线图是将时间序列转换为图像的最常见方法。例如,ViTime [7]使用折线图表示时间序列,以适配视觉基础模型(如ViT)。
- 热图
热力图在二维空间中通过颜色表示数值大小,用于可视化时间序列,尤其适合处理长时间序列. VisionTS [8] 将长序列按周期分割成小段,堆叠成热图,从而复用视觉基础模型(MAE) 。
- 频谱图
时间序列可以分解为频率谱,并表示为频谱图,例如 ITF-TAD [9]。
- 其他方法
时间序列还可以分解被转换为格拉姆角场 (Gramian Angular Fields)去更好地建模长短期依赖关系以及重现图 (Recurrence Plots)去捕捉时间序列周期模式
03
Time As Audio(时间序列即音频)
目前仅有少量工作尝试将预训练的音频神经网络模型用于时间序列分析任务。例如,Voice2Series [10]通过重新编程输入的时间序列,并将其输入到一个预训练的深度声学分类模型中。
04
Time As Table(时间序列即表格)
表格基础模型可以在表格数据上执行少样本回归或分类任务。这类模型可以通过将时间序列表示为表格数据来适配时间序列分析任务,其中每个变量作为一个独立特征,并引入时间戳作为时间上下文。值得注意的是,TabPFN [11],一个用于时间序列预测的基础表格模型,表现出了强大的零样本时间序列预测性能,甚至超过多种基座时间序列模型。
05
具体的领域应用
请进一步查看综述原文了解模态复用在金融,医疗以及时空数据分析的具体应用。
多模态扩展以增强TSA(Time+X)
人类专家通常通过整合多种模态完成时间序列分析(TSA)任务,尤其是结合数值数据和文本数据。例如,流行病学专家会将流感感染数据与文本领域知识、政策和报告结合,用于预测未来的流行趋势。然而,大多数TSA模型仍是单模态的,仅使用数值型序列。将单模态 TSA 扩展为多模态 TSA,特别是通过整合文本模态,是一个新兴的研究方向。本文首先介绍通用领域中的多模态TSA研究,依次介绍“时间+文本”(Time+Text)与“时间+其他模态”(Time+Other Modalities),然后进一步讨论在特定应用领域中的代表性研究。同时,本文在表1中总结了一些代表性多模态时间序列数据集。
01
Time + Text(时序+文本)
文本增强的时间序列分析是最为常见的多模态 TSA 场景。我们将集成的文本分为两类:静态文本和动态文本。
- 静态文本
提供的是静态的背景信息,有助于模型理解和适应未见过的时间序列数据。静态文本可以进一步细分为数据集元信息 [4] 和任务指示 [2]。
- 动态文本
则与时间序列数据高度对齐。除了提供当前的上下文外,动态文本序列还能够反映上下文随时间变化的轨迹。最直接的动态文本是内生信息,例如样本的统计描述 [4]。进一步的,ChatTime [12] 引入日期和天气等容易获取的动态文本。Time-MMD [0] 数据集则代表了通用的文本上下文,包括关键词搜索序列和专家报告序列。此外,Time-MMD [0] 数据集的提出缓解了现有数据集的领域局限问题,通过提供9个领域的数据集;以及数据污染问题,通过解耦合描述性和预测性的文本。
从方法角度上看,整合多种模态的关键挑战在于模态融合。本文将现有模型分为三种策略:早期融合、晚期融合和中间融合。如下图所示,早期融合在输入层就将原始模态进行合并。大部分引入静态文本的模型 [4] 都可以被归为此类;晚期融合则是在各模态分别输出之后再进行合并。这种方式灵活轻便,不受限于具体的模型,例如MM-TSFlib [0] 库;中间融合是在每种模态的表示层进行合并,提供更细粒度地融合,例如TaTS [13]。
02
Time + Other Modalities(时序+其他模态)
相比于文本,目前较少研究关注将时间序列与其他模态进行结合。ImageBind [14] 提出使用视觉作为桥接模态的方式,将任意模态(包括通过惯性测量单元(IMU)数据表示的时间序列、视频、音频、图像和文本)进行融合,从而实现可复用的模态融合能力模型。此外,在医疗,金融和时间序列数据存在其他模态的融合。
03
具体的领域应用
请进一步查看综述原文了解多模态扩展(包括表格,图片等)在金融,医疗以及时空数据分析的具体应用。
Time2X & X2Time
与文本和图像等人类可读模态相比,时间序列模态缺乏天然的可解释性。**通过时间序列与人类可读模态之间的跨模态交互,现有的 Time2X 和 X2Time 研究正在重塑 TSA 范式,使其更易于人类使用和理解。**本文将按照相同顺序介绍现有研究:先介绍通用的 TSA 方法,再介绍特定领域的 TSA 方法,优先介绍与文本模态结合的研究,然后介绍与其他模态结合的研究。
01
Text2Time(文本到时间序列)
- 检索
Text2Time 检索任务是指使用文本描述作为查询,来检索对应的时间序列数据。相比传统的时间序列查询方法,这种方式显著降低了查询设计的难度,并提升了灵活性。现有研究可进一步分为两类。(1) 局部检索,也称为特征理解,主要关注于判断查询中指定的特征类型是否存在于时间序列中 [15]。(2) 全局检索是旨在通过整体性的文本描述来检索对应的时间序列数据, 例如 CLaSP [16].
- 生成
Text2Time 生成是指使用文本描述来引导和控制时间序列数据的生成。Text2Time 生成通常用于合成大规模的文本-时间序列对齐数据集,或满足实例级的需求,例如生成与特定病人疾病状态相匹配的心电图。文献 [17] 利用大语言模型(LLMs)将文本约束转化为代码,再通过这些代码生成时间序列数据。
02
Time2Text(时间序列到文本)
- 标注
时间序列标注任务,也称为注释、描述、叙述或摘要任务,旨在为给定的时间序列生成自然语言描述,可以是全面的解释,也可以是以流畅的语言简要总结关键模式。早期研究[18]主要集中于引入神经网络模型。近年来,LLMs 被进一步用于时间序列的标注,例如Insight Miner [19].
- 解释
这类工作使用自然语言对黑箱时间序列模型进行解释。TimeXL [20] 提出用于事件预测的内在解释方法。Xforecast [21] 评估了LLMs在时间序列预测任务中的事后语言解释能力。
03
TIme2Text + Text2Time(双向交互)
这类研究关注于多模态多任务的时间序列模型,特别是同时处理文本+时间的输入和输出,其代表性的场景是通用的时间序列问答(QA)任务。例如,Time-MQA [22],旨在统一多种任务(包括预测、补全、异常检测、分类和开放式推理),以自然语言问答框架支持全面的时间序列分析。
04
其他通用的跨模态研究
DataNarrative [23] 将可视化元素(如图表中的高亮柱状图和折线)与文本结合,用于从时间序列数据中自动生成数据故事。
05
具体的领域应用
请进一步查看综述原文了解多模态交互在金融,医疗以及时空数据分析的具体应用。
差距与未来机会
对应于 TimeAsX, Time+X, Time2X & X2Time 三种受益途径,本文指出了现有研究的空白并讨论了潜在的解决方案:
01 关于模态复用:该选择哪种模态?
现有 TimeAsX 研究已在多个模态的基础模型复用方面进行了大量探索,包括将时间序列重构为文本(有训练或无训练)、图像(折线图、热力图、频谱图)、音频和表格。一个显著的研究空白在于:如何为特定的时间序列分析场景选择最合适的模态复用策略,即针对不同任务、数据集和目标选择最佳路径。 本文提出以下潜在的未来研究方向:
- 统一基准测试,作为评估不同模态复用方案的参考指南;
- 自动化的模态复用方法。例如,VL-Time [24]初步展示LLM 可根据任务描述自动选择频域或频谱可视化方式。
- 组合多种模态建模方式,因为每种模态都提供了不同的视角。
02 关于多模态扩展:如何应对异质模态组合?
对于 Time+X 的不同任务与数据集,模态组合存在显著异质性:(1) 在通用时间序列分析任务中,常见的组合只有 Time + Text;(2)不同领域中,模态组合各异。例如在医疗领域,Time + Tabular 较为常见,而其他领域则较少;(3)同一领域中,不同数据集的模态组合也不同。例如 MIMIC 数据集包含 Time + Text + Image + Tabular,而 PTXL 数据集仅包含 Time + Text ;(4)同一数据集中,在样本层面也存在模态缺失问题。
应对这些异质模态组合对于实际应用至关重要。本文提出以下未来方向:
- 可扩展的模态融合方法,能够处理变数量的输入模态。目前大多数研究仍局限于固定数量(通常为两种)模态的融合。
- 鲁棒的缺失模态处理方法,一种可行的方式是对缺失模态进行插补,然而当前的研究大多集中于数值模态的插补方法。
03 关于跨模态交互:如何泛化至未见任务?
当前的 TimeAsX 研究已引入多个新型 TSA 任务,例如跨模态检索、生成、以及通用问答。这些工作通过引入人类可读模态(特别是语言)作为查询或输出,显著提升了 TSA 的可用性与可解释性。但语言等模态的引入也带来了新的挑战:训练或预训练阶段难以覆盖所有跨模态任务,例如尚未充分探索的基于文本引导的时间序列编辑任务,以及用户自然语言表达的多样性。
为弥补这一差距,本文期待未来时间序列研究能引入更强的推理能力,以支持未见任务。与记忆式方法相比,推理方法已被广泛证明具有更强的泛化能力。目前对时间序列推理的研究仍处于早期阶段,本文总结了几种已有的探索经验:
- TSReasoner [25]:通过代码进行任务分解;
- TimerBed 和 VL-Time [24]:结合可视化与少样本上下文学习;
- Rec4TS [26]:评估了系统1和系统2推理策略的有效性,指出self-consistency和DeepSeek-R1类型推理的优越性;
- ChatTS [191]:通过多样数据进行有监督微调。
结语
本文提出了首个关于新兴领域 MM4TSA(多模态赋能时间序列分析)的综述,旨在系统性地回答一个核心问题:“时间序列分析如何从多模态中受益?”在本综述中,我们系统地总结了三类具有代表性的受益路径:
(1)TimeAsX:通过复用其他模态的基础模型以实现高效的TSA;
(2)Time+X:通过集成多模态信息扩展传统时间序列分析;
(3)Time2X 与 X2Time:通过跨模态交互实现更高阶的TSA能力。
针对每一类路径,本文根据模态类型对现有工作进行分类,介绍了典型的领域应用,并深入讨论了当前存在的核心研究空白及未来的潜在解决方案。本综述揭示了当前研究逐渐从孤立的时间序列建模走向多模态融合的趋势,期望能够激发更多关于 MM4TSA 领域的创新研究。
最后的最后
感谢你们的阅读和喜欢,作为一位在一线互联网行业奋斗多年的老兵,我深知在这个瞬息万变的技术领域中,持续学习和进步的重要性。
为了帮助更多热爱技术、渴望成长的朋友,我特别整理了一份涵盖大模型领域的宝贵资料集。
这些资料不仅是我多年积累的心血结晶,也是我在行业一线实战经验的总结。
这些学习资料不仅深入浅出,而且非常实用,让大家系统而高效地掌握AI大模型的各个知识点。如果你愿意花时间沉下心来学习,相信它们一定能为你提供实质性的帮助。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】

大模型知识脑图
为了成为更好的 AI大模型 开发者,这里为大家提供了总的路线图。它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
经典书籍阅读
阅读AI大模型经典书籍可以帮助读者提高技术水平,开拓视野,掌握核心技术,提高解决问题的能力,同时也可以借鉴他人的经验。对于想要深入学习AI大模型开发的读者来说,阅读经典书籍是非常有必要的。
实战案例
光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
面试资料
我们学习AI大模型必然是想找到高薪的工作,下面这些面试题都是总结当前最新、最热、最高频的面试题,并且每道题都有详细的答案,面试前刷完这套面试题资料,小小offer,不在话下
640套AI大模型报告合集
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
