预训练大语言模型对时间序列预测真的有用吗？去掉预训练LLM效果反而提升

再不会AI就不礼貌了

于 2024-09-16 12:00:00 发布

阅读量378

点赞数 8

文章标签：语言模型深度学习人工智能神经网络 github 机器学习算法

本文链接：https://blog.csdn.net/Everly_/article/details/142253414

版权

今天给大家介绍一篇关于大模型在时间序列应用探讨的工作。这篇文章质疑大语言模型在时间序列预测中是否有效，并对目前最先进的3个基于大语言模型的时间序列预测模型进行实验，发现去掉大语言模型部分，改成一个attention网络，也能取得相同甚至更优的效果。

论文标题：Are Language Models Actually Useful for Time Series Forecasting?

下载地址：https://arxiv.org/pdf/2406.16964v1

背景

随着大语言模型的兴起，一些工作也将其应用到时间序列预测领域。这类方法一般基于预训练好的NLP领域的语言模型，将时间序列转换成文本形式输入其中，通过finetune大模型，产出预测结果。典型的代表工作包括OneFitsAll、Time-LLM、LLaTA等工作。

本文质疑的点就是大语言模型在时间序列预测中是否真的有效。通过一系列的对目前先进的大语言模型的实验来看，引入大语言模型并不和提升效果，甚至会降低效果，并且白白浪费了更多的计算资源。

实验方法

本文对3个目前业内最先进的基于大语言模型的时间序列预测方法进行实验，分别是OneFitsAll、Time-LLM、LLaTA。

OneFitsAll：OneFitsAll是基于GPT4的时序预测模型，将时间序列归一化并进行patch处理后，输入预训练GPT4中，finetune其中的position embedding和layer norm参数，其他参数freeze；

Time-LLM：Time-LLM将时间序列转换成token后映射到低维表征，和数据集描述等信息拼接后输入到预训练大模型中，大模型的输出结果再输入到一个线性层进行生成预测结果；

LLaTA：模型分为文本分支和时序分支，文本分支部分将原始时间序列和大模型的word embedding对齐后，输入到大模型中，生成文本表征。时序分支基于原始时间序列数据，使用一个adpater对预训练大模型进行finetune，同时将时序分支和文本分支的表征拉近作为辅助任务。

在实验方法上，针对上述3个大模型时序预测模型，采用如下方法进行消融实验，鉴别大模型在其中的作用。第一种是w/o LLM，直接将大模型部分去掉。第二种是LLM2Attn，将大模型改成一个参数随机初始化multi-head attention结构。第三种是LLM2Trsf，将大模型部分改成一个随机初始化的Transformer结构。通过对比这三种方式和原始模型的效果，就可以分辨出大模型的参数是否对时间序列预测起到作用。

实验结果

下表展示了一个基础的消融实验效果图。从图中可以看出，Time-LLM、LLaTA、OneFitsALL等模型中，将大语言模型部分直接改成Transformer，在不同的数据集上效果并没有明显下降。在一些数据集上效果反而提升了。消融模型的效果，所有case上都超过了Time-LLM，22个case超过了Time-LLM，19个数据集超过了OneFitsALL。这说明在这些方法中，预训练的大语言模型并没有发挥什么特别重要的作用。