在人工智能领域,Transformer模型可谓是近年来的"明星选手"。从自然语言处理到计算机视觉,Transformer几乎无往不利。然而,在时间序列预测这个看似简单的任务上,Transformer却屡屡折戟沉沙。最近,一些简单的线性模型甚至在性能和效率上超越了复杂的Transformer模型,这不禁让人对Transformer在时间序列预测中的地位产生了质疑。
但是,真的是Transformer不适合时间序列预测吗?还是说,我们一直以来都没有找到正确的使用方法?最近,来自清华大学的研究团队提出了一个新颖的观点 - 也许我们应该"颠倒"Transformer的使用方式。他们提出的iTransformer模型,通过简单地改变Transformer的应用维度,就在多个具有挑战性的时间序列预测任务中取得了惊人的成绩。这个看似简单的改变,究竟蕴含着怎样的智慧?让我们一起来一探究竟。
Transformer在时间序列预测中的困境
传统的Transformer模型在处理时间序列数据时,通常会将同一时间点的多个变量嵌入到一个"时间token"中。这种方法看似合理,但实际上存在几个潜在的问题:
-
信息混杂: 同一时间点的多个变量可能代表完全不同的物理含义,将它们混合在一起可能会导致有价值的信息丢失。
-
局部视野: 单个时间点形成的token可能难以揭示有益的信息,因为它的接受范围过于局限。
-
时间不对齐</