【论文分享】TCCT: Tightly-coupled convolutional transformer on time series forecasting

TCCT:时间序列预测的紧耦合卷积 Transformer
提高 Transformer 的效率和增强局部性,将 Transformer 与 CNN 进行了不同程度的结
合。但是,它们的组合是松耦合的,并没有充分利用 CNN。 为了解决这个问题,我们提出了紧耦合卷积变换器(TCCT)的概念和三个将变换后的
CNN 架构应用到 Transformer 中的 TCCT 架构。 只有在Transformer模型中应用特定的变换后的CNN架构,才能将Transformer和CNN
紧密结合,从而充分发挥它们的优势。
本文解决方案:融合了𝑪𝑺𝑷𝑵𝒆𝒕,𝑻𝑪𝑵的扩张因果卷积和𝒀𝒐𝒍𝒐的直通机制

  1. 𝐶𝑆𝑃𝑁𝑒𝑡基础上提出了𝐶𝑆𝑃𝐴𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛,降低内存复杂度,提高预测精度,将𝐶𝑆𝑃𝑁𝑒𝑡 与 self-attention 融合,自注意力机制的计算成本减少 30%,内存使用减少 50%,
    同时达到或超过预测精度。
  2. 扩张因果卷积用于以指数增大感受野,通过用扩张因果卷积层替换规范卷积层来修
    改𝐼𝑛𝑓𝑜𝑟𝑚𝑒𝑟提出的蒸馏操作,以获得指数感受野增长。
  3. 直通机制替代𝐼𝑛𝑓𝑜𝑟𝑚𝑒𝑟原来的蒸馏机制,将直通机制应用于自注意力块堆栈有助
    于类 Transformer 模型获得更细粒度的信息(fine-grained information),而额 外的计算成本可忽略不计。从而提高计算效率和降低内存复杂度。
    Informer结构

𝐸𝑛𝑐𝑜𝑑𝑒𝑟:蓝色梯形内部包括一个主编码器,堆叠了三个𝑃𝑟𝑜𝑏𝑆𝑝𝑎𝑟𝑠𝑒 𝐴𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛块(蓝色) 和两个额外的编码器,输入更短,注意力块更少。绿色梯形内的卷积层(绿色)和最大池化 层用于连接每两个自注意力块。三个编码器输出的三个特征图全部融合,然后交给解码器。
𝐷𝑒𝑐𝑜𝑑𝑒𝑟:𝐼𝑛𝑓𝑜𝑟𝑚𝑒𝑟的解码器与标准𝑇𝑟𝑎𝑛𝑠𝑓𝑜𝑟𝑚𝑒𝑟的解码器相比几乎没有变化。只有被掩蔽 的自注意力块被掩蔽的𝑃𝑟𝑜𝑏𝑆𝑝𝑎𝑟𝑠𝑒 𝐴𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛块替换。
CSPAttention模块

输入(蓝色)分为两部分。第一个(绿色)通过 A 层传播,一个 1×1 卷积层,而另一 个(红色)通过块 B 传播,一个自注意力块。最后将两个部分的输出连接在一起,作为整个 𝐶𝑆𝑃𝐴𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛块的最终输出。
在这里插入图片描述

𝐶𝑆𝑃𝐴𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛的目的是为了缓解𝑠𝑒𝑙𝑓 − 𝑎𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛机制的内存瓶颈和计算效率问题。降 低了𝑠𝑒𝑙𝑓 − 𝑎𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛机制的内存流量和时间复杂度。假设一个规范的自注意力块的输入和 输出维度都是𝑑并且只有一个输入标记。
(a)所示,一个自注意力块包含四个线性投影层,其输入和输出维度均为𝑑(查询、键、 值、投影)。因此,内存占用为4𝑑!
然而,假设𝐶𝑆𝑃𝐴𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛将输入维度分成两半,𝐶𝑆𝑃𝐴𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛的第一部分只有一个线性 投影层,而第二部分有四个。相应的架构如图(b)所示。因此,一个𝐶𝑆𝑃𝐴𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛块的内存
占用是(4 + 1)(")!,是典型自注意力块的31.25%。 !

扩张因果卷积: 与𝐶𝑆𝑃𝐴𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛结合使用时,扩张的因果卷积层也可以作为一个过渡层,用于融合来自前𝐶𝑆𝑃𝐴𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛块的两个部分的特征图。

直通机制 Passthrough mechanism
Yolo系列目标检测CNN网络提出的直通机制(passthrough mechanism),从早期网络 中获取特征图并将它们与最终特征图合并以获得更细粒度的信息。
在这里插入图片描述

假设一个编码器堆叠了𝑛个自注意力块,那么每个自注意力块都会产生一个特征图。假 设𝐶𝑆𝑃𝐴𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛和扩张因果卷积已应用于该编码器,则第𝑘(𝑘 = 1,2…𝑛)个特征图的长度,为了连接所有不同尺度的特征图,第𝑘个特征图被等价地按长度分割成2 %&,这样,所有的特征图都可以按维度连接起来。但是,连接的特征图 的维度为(2 − 1) × 𝑑,因此应采用过渡层来确保整个网络导出适当维度的特征图。
在这里插入图片描述

𝐼𝑛𝑓𝑜𝑟𝑚𝑒𝑟只有一个编码器,意味着它没有使用完全蒸馏操作,而是用直通机制代替。
其他𝑇𝑟𝑎𝑛𝑠𝑓𝑜𝑟𝑚𝑒𝑟与𝑇𝐶𝐶𝑇架构配合。例如,为了将𝑇𝐶𝐶𝑇架构与𝐿𝑜𝑔𝑇𝑟𝑎𝑛𝑠相结合,图中 的(掩码)𝑃𝑟𝑜𝑏𝑆𝑝𝑎𝑟𝑠𝑒自注意力块将被(掩码)𝐿𝑜𝑔𝑆𝑝𝑎𝑟𝑠𝑒 自注意力块替换,其他架构保 持不变。
在这里插入图片描述

堆叠三个自注意力块的单个𝐼𝑛𝑓𝑜𝑟𝑚𝑒𝑟编码器与所有三种𝑇𝐶𝐶𝑇架构协作。
每个𝐶𝑆𝑃𝐴𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛块(浅黄色)中结合与𝐼𝑛𝑓𝑜𝑟𝑚𝑒𝑟的典型架构𝑃𝑟𝑜𝑏𝑆𝑝𝑎𝑟𝑠𝑒 𝑠𝑒𝑙𝑓 − 𝑎𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛(红色)。
在每两个𝐶𝑆𝑃𝐴𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛块之间,通过一个扩张因果卷积层和一个最大池化层(绿色)连 接。 前一个𝑠𝑒𝑙𝑓 − 𝑎𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛块的输出特征图在传播通过这两层后缩小到其长度的一半,反 映了初始𝐼𝑛𝑓𝑜𝑟𝑚𝑒𝑟中的情况,但扩大了感受野。
三个𝑠𝑒𝑙𝑓 − 𝑎𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛 𝑏𝑙𝑜𝑐𝑘输出的三个𝑓𝑒𝑎𝑡𝑢𝑟𝑒 𝑚𝑎p 都通过𝑝𝑎𝑠𝑠 𝑡h𝑟𝑜𝑢𝑔h机制(灰色) 融合,得到更细粒度的信息。
最后添加一个过渡层(绿色),以将适当维度的特征图导出到解码器。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值