本文是由北京大学和阿里联合发布的大模型应用研究论文,总结了使用今天的语言模型(LLM)完成时间序列(TS)任务的两种策略,并设计了一种适合于LLM的TS嵌入方法——TEST——来激活LLM对TS数据的能力,在llm对TS分类和预测任务中达到了接近SOTA的能力,通过将LLM作为模式机器,让LLM可以在不影响语言能力的情况下处理TS数据。
TEST: Text Prototype Aligned Embedding to Activate LLM’s Ability for Time Series
Chenxi Sun, Yaliang Li, Hongyan Li, Shenda Hong(2023, August).
Peking University, Alibaba Group
1. 背景和问题
将时间序列(Time Series, TS)与LLM融合的方式有两条路线:
(1)LLM-for-TS:针对TS数据,从头开始设计并预训练一个基本的大型模型,然后为各种下游任务相应地微调模型;
(2)TS-for-LLM:基于现有的LLM,使它们能够处理TS数据和任务。 不是创建一个新的LLM,而是设计一些机制来为LLM定制TS。
第一种方法是最基本的解决方案,因为预训练是向模型灌输知识的关键步骤。而第二种方法实际上很难超越模型的原始能力。囿于如下三个原因,本论文仍然关注第二种方法:
-
数据:TS通常为专业数据,难以大量获取;
-
模型:LLM-for-TS专注于垂直行业,跨领域需要重新建立,而TS-for-LLM可以插件化,几乎不需要训练,更加通用和方便;
-
用途:LLM-for-TS适合涉及专家的情况,TS-for-LLM保持了LLM的文本能力,同时提供丰富的补充语义,易于访问和用户友好。
基于预训练的LLM,如果将TS视为文本数据,可能的形式是:
[Q] 通过以下平均动脉压力序列(单位:毫米汞柱)判断患者是否患有败血症:88、95、78、65、52、30。
[A] 是的
然而,TS通常是多变量的,而文本是单变量的。处理单变量文本的LLM会将多变量TS转化为多个单变量序列并逐一输入它们。这样有三个缺点:
-
不同的prompts、顺序和连接语句会产生不同的结果;
-
长输入序列可能使LLM效率低下,难以记住前一个单变量TS;
-
TS中的多变量依赖性的关键方面将被忽略。
于是,本论文对TS进行了token化,设计了一个嵌入TS token的模型,并替换了LLM的嵌入层。 核心就是创建能够被LLM理解的嵌入。
SOTA方法通过图像的文本描述来对齐文本嵌入和图像嵌入。但是TS缺乏视觉线索,并且存在标注瓶颈,只有少量TS,如ECG,适合转化为文本描述。自监督对比学习可以利用固有信息设计pretext任务,而不是依赖预先定义的先验知识,从而避免标注瓶颈。但是无约束对比学习生成的表示向量很可能与LLM的认知嵌入空间有很大的偏离。
本文提出Text embedding space of LLM (TEST)方法,在对比学习基础上,使用以正交文本嵌入向量为原型约束TS的嵌入空间,并通过识别特征原型来突出模式,激活LLM的模式机能力。
2. 方法介绍
Text emb