原标题MICN: Multi-scale Local and Global Context Modeling for Long-term Series Forecasting,ICLR上的top5%
动机
基于Transformer的方法在长期序列预测领域表现惊人,但是计算全局相关性的注意力机制需要很高的复杂度。而且也不能像CNN结构那样对局部特征进行有针对性的建模。另一方面,TCN(时域卷积网络)的因果卷积由于感受野大小的限制需要多个隐藏层才能获取全局方面的关联性,提高了模型的复杂度,如下图
本文结合CNN和Transformer两种建模角度,提出了MICN模型,对局部和全局信息进行建模,同时降低模型和计算的复杂度。
模型
整个模型的架构如下
其中下半部分的Trend-cyclical Prediction Block就是对序列的长期趋势做线性回归,很简单的模块不多讲了。
MULTI-SCALE HYBRID DECOMPOSITION
本文对季节性和趋势-周期部分的分解如下:
这一步和FEDformer的MOEDecomp模块差不多,由于平均池化kernel大小所获取的信息会有所差异,作者直接将多个池化得到的结果进行平均。这里多个尺度的kernel结果的平均就对应着这里的MULTI-SCALE HYBRID。
SEASONAL PREDICTION BLOCK
该部分是整个论文的核心,该部分的模块如下:
整个模块首先对输入Xs进行嵌入,然后送入到后面的不同尺度的Local-Global模块中,然后进行Merge融合多个尺度下的信息。
Multi-scale isometric Convolution(MIC) Layer
MIC层中的局部全局模块如下
Local部分先将输入通过kernel=i的平均池化之后,在进行stride=kernel=i的1维卷积的降采样,这一步将序列缩小为了原来的i倍,有点像SCINet中降低分辨率的感觉。
Global部分输入就是之前Local部分的输出,通过等距卷积对之前的各个Local部分的特征进行建模,然后得到全局关系,最后通过转置卷积的上采样回复到原来的长度。作者提出了Isometric Convolution(等距卷积)就是对原长度为S的序列用0在头部补充S-1个长度,然后用大小为S的kernel对这个序列进行卷积,下图是对Isometric Convolution和Masked attention的对比
这里毫无疑问就是作者对TCN感受野限制导致的模型复杂化做出的解答,不过SCINet的论文中有提到TCN中不使用未来信息的不必要,这里依然仿照着因果卷积做处理不是很理解。
实验
本论文的实验以及消融相当完备,有十多页的实验附录,这是几个主要成果