本文介绍一篇关于时序数据集的创新性工作。研究者提出了一个涵盖9个主要数据领域的首个多域多模态时间序列数据集 Time-MMD。该数据集通过精细的模态对齐、消除数据污染,并提供高可用性,解决了以往数据集的局限性。此外,研究者还开发了 MM-TSFlib,这是一个多模态时间序列预测库,它通过 Time-MMD 进行多模态时间序列预测(TSF) 评估,以进行深入分析。
在 Time-MMD 上使用 MM-TSFlib 进行的广泛实验表明,与单一模态TSF相比,多模态 TSF 平均降低了超过 15% 的均方误差,某些文本数据丰富的领域甚至高达 40%,证明了多模态扩展在时间序列分析中的有效性和优越性。
【论文地址】
https://arxiv.org/abs/2406.08627
【数据集&库】
https://github.com/AdityaLab/Time-MMD
https://github.com/AdityaLab/MM-TSFlib
论文背景
时间序列数据在广泛的现实领域中无处不在。然而,现实世界的时间序列分析(TSA)需要人类专家将数值序列数据与多模态领域特定知识相结合,而大多数现有的 TSA 模型仅依赖于数值数据,忽视了数值序列之外信息的重要性。这种忽视源于文本序列数据的潜力尚未被发掘,以及缺乏全面、高质量的多模态数据集。
随着大型语言模型(LLMs)的发展,TSA 领域正在经历转型,开始整合自然语言。然而,外源性文本信号(如事件和政策信息)尚未得到充分利用,这引发了一个关键问题:多模态 TSA 模型能否有效利用这些信号以增强 TSA 任务并实现新应用?
当前的挑战在于缺乏一个全面、高质量的多模态时间序列数据集,主要存在以下三个缺口:
-
狭隘的数据领域,不同领域之间的数据特征和模式各不相同,例如数值数据的周期性和文本数据的稀疏性。然而,当前的多模态时间序列数据集仅关注金融领域的股票预测任务,无法代表多样化的数据领域。
-
粗糙的模态对齐,现有的多模态时间序列数据集只确保文本和数值数据来自同一领域,例如一般的股票新闻和某一特定股票的价格。显然,大量无关的文本会降低多模态 TSA 的有效性。
-
固有的数据污染,现有的多模态时间序列数据集忽视了数据污染的两个主要原因:(1)文本数据通常包含预测。例如,流感展望是流感报告中的一个常规部分。(2)过时的测试集,特别是文本数据,可能已经暴露于 LLMs,这些模型是在大量语料库上预训练的。
为了应对这些挑战,论文引入了 Time-MMD,这是首个覆盖9个主要数据领域的多域多模态时间序列数据集。Time-MMD 确保了细粒度的模态对齐,消除了数据污染,并提供了高可用性。此外,研究者还开发了 MM-TSFlib,这是首个多模态 TSF 库,它基于 Time-MMD 无缝地构建多模态 TSF 评估流程,以进行深入分析。
Time-MMD
多域多模态数据集
研究者提出了一个全面的通道过程,用于构建一个利用现代 LLMs 的文本-数值序列数据集。如图1所示,构建过程分为三个关键步骤:
-
数值序列数据构建。从可靠的来源收集数值数据,以确保其可靠性和准确性。
-
文本序列数据构建。为与数值数据进行精细匹配,收集了文本数据。通过人工选择数据源和大型语言模型对原始文本进行过滤,确保了这种匹配的质量。此外,还利用大型语言模型来区分事实和预测,并生成摘要。
-
数值-文本对齐。使用二进制时间戳来标记开始和结束日期,作为数值序列和文本序列之间通用的时间对齐方法,以满足各种下游 TSA 任务的需求。
图1:Time-MMD数据集构建
01.数值序列数据构建
数据源选择。选择的数据源需满足以下标准:(1)可靠,包含已验证的知识;(2)积极发布,能够随着新数据的出现而更新;(3)跨领域,涵盖各种时间序列分析(TSA)模式。基于这些原则,研究者从不同领域选择了 9 个数据源。其中大多数来源于政府机构,最低更新频率为每六个月一次。
目标变量选择。对于每个领域,研究者选择具有显著现实意义的目标变量,这些变量更容易与文本进行匹配,如表1所示。这些变量跨越三个不同的频率:日、周和月。
表1:Time-MMD中数值数据概览
收集与预处理。收集所有可用时间的原始数据,这些数据来自批量发布的文件或通过单独抓取获得。在预处理数据时,研究者丢弃了早期年份中缺失值比例较高的数据。对于大多数领域,研究者保持了原始频率,但由于安全领域和气候领域的发布不规律以及文本匹配困难,分别对这些领域的频率进行了调整。图2展示了每个领域中存在的多种模式,如周期性和趋势。
图2:Time-MMD的可视化
数据质量与属性。如表1和图2所示,构建的数值数据在时间覆盖上非常全面,从最早的1950年至今,并呈现出不同的模式,如周期性和趋势。
02.文本序列数据构建
数据源选择:精选报告和网络搜索结果。报告数据确保了与目标变量的高相关性,而搜索结果则提供了更全面的覆盖。
数据收集:搜索和抓取。使用 Google API 进行关键词搜索,收集了每周前10个搜索结果的数据。对于报告数据,解析每个数据源的所有可用报告并仅保留纯文本段落。
数据预处理:过滤、区分和摘要。为了净化收集的原始文本数据,引入了三个关键的预处理步骤:
(1)过滤以提高相关性;
(2)区分事实与预测以减轻数据污染;
(3)摘要以提高可用性。
鉴于手动执行这些步骤不切实际,研究者利用最先进的大型语言模型 Llama3-70B 来完成这些任务。
研究者采用了三种具体策略来缓解 LLMs 中的幻觉问题,并提高预处理质量:
(1)对文本进行简洁的介绍;
(2)要求 LLM 引用数据源,以辅助约束和验证;
(3)当相关性不确定时,允许 LLM 指示“不可用”,以避免捏造信息。
研究者还进一步验证了文本数据构建中关键步骤的有效性:
(1)数据源选择。使用相关性和覆盖率来描述相关文本的比例和至少有一个事实覆盖的数值序列数据的比例。如表2所示,报告数据的相关性更高但覆盖率更低;搜索数据则相反。因此,文中的组合使用构成了一个全面的解决方案。
表2:文本数据统计
(2)数据预处理。图3分别展示了健康领域中构建的文本数据(提取的事实、提取的预测和丢弃的文本)的词云可视化,这些验证了LLM过滤和区分的有效性。此外,表2比较了预处理前后的标记数量。数量的显著减少验证了LLM摘要提高了可用性。
图3:健康领域流感患者比例的词云可视化
MM-TSFlib
多模态时序预测库
01.多模态融合框架
研究者提出了一个创新的多模态融合框架,旨在将现有的单模态时间序列预测模型扩展到其多模态版本。如图4所示,该框架采用端到端流程,将开源语言模型与各种时间序列预测模型相结合。数值序列和文本序列分别使用单模态时间序列预测模型和带有投影层的大型语言模型(LLMs)进行建模。然后,使用可学习的线性加权机制将这些输出组合起来,以产生最终预测。为降低计算成本,研究者冻结了LLM的参数,仅训练额外的投影层。研究者使用池化层来处理文本变量维度不一致的问题。此框架采用端到端的训练方式,且可训练参数的开销很小。
图4:MM-TSFlib 框架总览
02.多模态时间序列预测库
基于多模态数据集 Time-MMD 和融合框架,研究者推出了第一个多模态时间序列预测库,名为 MM-TSFlib。MM-TSFlib 通过7个开源(大型)语言模型,包括 BERT、GPT-2(小型、中型、大型、超大型)、Llama-2-7B 和 Llama-3-8B,支持超过 20 种单模态时间序列预测算法的多模态扩展。
MM-TSFlib 旨在方便在多模态时间序列分析中与 Time-MMD 一起使用。此外,MM-TSFlib 还作为评估现有时间序列预测模型多模态可扩展性的试点工具包。
实验效果
实验涉及9个不同领域的 Time-MMD 数据集,覆盖了从短期到长期的不同时间范围的时间序列预测任务。使用均方误差(MSE)作为评估指标,选择了12种先进的单模态 TSF 方法,包括基于 Transformer 的方法、基于 MLP 的方法、不可知方法和基于 LLM 的方法。文中实验旨在研究以下5个方面:
- 多模态 TSF 的有效性:多模态版本在所有 TSF 骨干网络上都优于相应的单模态版本,平均降低了超过 15% 的均方误差,某些文本数据丰富的领域高达 40%。
图5:每个时间序列预测(TSF)主干模型的平均归一化均方误差(MSE)结果
-
Time-MMD 数据集的质量:图5显示,像 iTransformer 和 PatchTST 这样的最新单模态 TSF 模型保持了领先的单模态性能,验证了 Time-MMD 数值数据的质量。此外,通过整合文本数据,多模态扩展显著且一致地提高了性能,证实了 Time-MMD 文本数据的质量。
-
数据领域的影响:图6a显示了每个领域通过多模态扩展减少的 MSE 与相关事实计数之间的关系。散点图通常显示正线性相关,这与整合文本信息的创新相一致。此外,即使事实计数相似,领域特性也会影响多模态性能。例如,关注灾害和紧急补助的安全领域,对未来的不确定性更高,因此从历史文本信息中获益较少。这一观察强调了 Time-MMD 覆盖9个领域的重要性。
图6:探索性实验结果
-
LLM骨干网络的影响:如图6b所示,LLM 骨干网络的选择与多模态 TSF 性能之间没有显著的相关性。对于 GPT2 系列,多模态 TSF 的扩展法则不明确,表明参数规模与 TSF 性能之间没有明确的正相关。不同的 LLMs 之间的多模态 TSF 性能相对相似,甚至在先进的 Llama-3-8B 和早期的 BERT 之间也是如此。
-
预测窗口大小的影响:图6c显示了预测窗口大小与每个领域平均 MSE 降低之间的关系。总体而言,MSE 降低在不同的预测窗口大小上是稳定且有希望的,从短期到长期。这表明多模态 TSF 的有效性对不同的预测范围要求是稳健的。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。