PatchTST是patch time series transformer的缩写,它是由Nie, Nguyen等人在2023年3月的论文中首次提出:A Time Series is Worth 64 Words: Long-Term Forecasting with Transformers,论文链接:链接
本文主要结合PatchTST的源码对内部工作原理进行学习解析
文章提出的主要几个创新点:
1、主要是对于输入数据的改变,将已经切分好的样本(数据预处理阶段构建的训练集)再输入时切分为小片段(这个操作在后面的Crossformer中的输入也出现了,或许此类操作是着实有效的);
2、独立的变量处理,主要意思是在变量的维度上进行单独的计算,不同于一般性的Transformer的编码计算(这一点的代码逻辑与Crossformer中也很类似,可以参考文章链接,那篇文章的创新点在于加强了多变量间的关系,从两个维度进行了单独的注意力考虑)
3、最后有一点是对Patch进行了自监督机制