【论文分享】TCCT: Tightly-coupled convolutional transformer on time series forecasting

最新推荐文章于 2023-03-30 20:15:44 发布

Holy姜姜

最新推荐文章于 2023-03-30 20:15:44 发布

阅读量973

点赞数

分类专栏：机器学习深度学习文章标签： transformer 深度学习人工智能

本文链接：https://blog.csdn.net/jerryholy13/article/details/124704487

版权

机器学习同时被 2 个专栏收录

4 篇文章 1 订阅

订阅专栏

深度学习

3 篇文章 0 订阅

订阅专栏

TCCT:时间序列预测的紧耦合卷积 Transformer
提高 Transformer 的效率和增强局部性，将 Transformer 与 CNN 进行了不同程度的结
合。但是，它们的组合是松耦合的，并没有充分利用 CNN。为了解决这个问题，我们提出了紧耦合卷积变换器(TCCT)的概念和三个将变换后的
CNN 架构应用到 Transformer 中的 TCCT 架构。只有在Transformer模型中应用特定的变换后的CNN架构，才能将Transformer和CNN
紧密结合，从而充分发挥它们的优势。
本文解决方案:融合了𝑪𝑺𝑷𝑵𝒆𝒕，𝑻𝑪𝑵的扩张因果卷积和𝒀𝒐𝒍𝒐的直通机制

𝐶𝑆𝑃𝑁𝑒𝑡基础上提出了𝐶𝑆𝑃𝐴𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛，降低内存复杂度，提高预测精度，将𝐶𝑆𝑃𝑁𝑒𝑡 与 self-attention 融合，自注意力机制的计算成本减少 30%，内存使用减少 50%，
同时达到或超过预测精度。
扩张因果卷积用于以指数增大感受野，通过用扩张因果卷积层替换规范卷积层来修
改𝐼𝑛𝑓𝑜𝑟𝑚𝑒𝑟提出的蒸馏操作，以获得指数感受野增长。
直通机制替代𝐼𝑛𝑓𝑜𝑟𝑚𝑒𝑟原来的蒸馏机制，将直通机制应用于自注意力块堆栈有助
于类 Transformer 模型获得更细粒度的信息(fine-grained information)，而额外的计算成本可忽略不计。从而提高计算效率和降低内存复杂度。

𝐸𝑛𝑐𝑜𝑑𝑒𝑟:蓝色梯形内部包括一个主编码器，堆叠了三个𝑃𝑟𝑜𝑏𝑆𝑝𝑎𝑟𝑠𝑒 𝐴𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛块(蓝色) 和两个额外的编码器，输入更短，注意力块更少。绿色梯形内的卷积层(绿色)和最大池化层用于连接每两个自注意力块。三个编码器输出的三个特征图全部融合，然后交给解码器。
𝐷𝑒𝑐𝑜𝑑𝑒𝑟:𝐼𝑛𝑓𝑜𝑟𝑚𝑒𝑟的解码器与标准𝑇𝑟𝑎𝑛𝑠𝑓𝑜𝑟𝑚𝑒𝑟的解码器相比几乎没有变化。只有被掩蔽的自注意力块被掩蔽的𝑃𝑟𝑜𝑏𝑆𝑝𝑎𝑟𝑠𝑒 𝐴𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛块替换。
CSPAttention模块

输入(蓝色)分为两部分。第一个(绿色)通过 A 层传播，一个 1×1 卷积层，而另一个(红色)通过块 B 传播，一个自注意力块。最后将两个部分的输出连接在一起，作为整个 𝐶𝑆𝑃𝐴𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛块的最终输出。
在这里插入图片描述

𝐶𝑆𝑃𝐴𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛的目的是为了缓解𝑠𝑒𝑙𝑓 − 𝑎𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛机制的内存瓶颈和计算效率问题。降低了𝑠𝑒𝑙𝑓 − 𝑎𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛机制的内存流量和时间复杂度。假设一个规范的自注意力块的输入和输出维度都是𝑑并且只有一个输入标记。
(a)所示，一个自注意力块包含四个线性投影层，其输入和输出维度均为𝑑(查询、键、值、投影)。因此，内存占用为4𝑑!
然而，假设𝐶𝑆𝑃𝐴𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛将输入维度分成两半，𝐶𝑆𝑃𝐴𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛的第一部分只有一个线性投影层，而第二部分有四个。相应的架构如图(b)所示。因此，一个𝐶𝑆𝑃𝐴𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛块的内存
占用是(4 + 1)(")!，是典型自注意力块的31.25%。 !

扩张因果卷积: 与𝐶𝑆𝑃𝐴𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛结合使用时，扩张的因果卷积层也可以作为一个过渡层，用于融合来自前𝐶𝑆𝑃𝐴𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛块的两个部分的特征图。

直通机制 Passthrough mechanism
Yolo系列目标检测CNN网络提出的直通机制(passthrough mechanism)，从早期网络中获取特征图并将它们与最终特征图合并以获得更细粒度的信息。
在这里插入图片描述

假设一个编码器堆叠了𝑛个自注意力块，那么每个自注意力块都会产生一个特征图。假设𝐶𝑆𝑃𝐴𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛和扩张因果卷积已应用于该编码器，则第𝑘(𝑘 = 1,2…𝑛)个特征图的长度，为了连接所有不同尺度的特征图，第𝑘个特征图被等价地按长度分割成2 − 1) × 𝑑,因此应采用过渡层来确保整个网络导出适当维度的特征图。
在这里插入图片描述

𝐼𝑛𝑓𝑜𝑟𝑚𝑒𝑟只有一个编码器，意味着它没有使用完全蒸馏操作，而是用直通机制代替。
其他𝑇𝑟𝑎𝑛𝑠𝑓𝑜𝑟𝑚𝑒𝑟与𝑇𝐶𝐶𝑇架构配合。例如，为了将𝑇𝐶𝐶𝑇架构与𝐿𝑜𝑔𝑇𝑟𝑎𝑛𝑠相结合，图中的(掩码)𝑃𝑟𝑜𝑏𝑆𝑝𝑎𝑟𝑠𝑒自注意力块将被(掩码)𝐿𝑜𝑔𝑆𝑝𝑎𝑟𝑠𝑒 自注意力块替换，其他架构保持不变。
在这里插入图片描述

堆叠三个自注意力块的单个𝐼𝑛𝑓𝑜𝑟𝑚𝑒𝑟编码器与所有三种𝑇𝐶𝐶𝑇架构协作。
每个𝐶𝑆𝑃𝐴𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛块(浅黄色)中结合与𝐼𝑛𝑓𝑜𝑟𝑚𝑒𝑟的典型架构𝑃𝑟𝑜𝑏𝑆𝑝𝑎𝑟𝑠𝑒 𝑠𝑒𝑙𝑓 − 𝑎𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛(红色)。
在每两个𝐶𝑆𝑃𝐴𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛块之间，通过一个扩张因果卷积层和一个最大池化层(绿色)连接。前一个𝑠𝑒𝑙𝑓 − 𝑎𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛块的输出特征图在传播通过这两层后缩小到其长度的一半，反映了初始𝐼𝑛𝑓𝑜𝑟𝑚𝑒𝑟中的情况，但扩大了感受野。
三个𝑠𝑒𝑙𝑓 − 𝑎𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛 𝑏𝑙𝑜𝑐𝑘输出的三个𝑓𝑒𝑎𝑡𝑢𝑟𝑒 𝑚𝑎p 都通过𝑝𝑎𝑠𝑠 𝑡h𝑟𝑜𝑢𝑔h机制(灰色) 融合，得到更细粒度的信息。
最后添加一个过渡层(绿色)，以将适当维度的特征图导出到解码器。