Autoformer 架构之前馈网络（Feed Forward）的详细解释

six.学长

于 2024-07-04 09:26:07 发布

阅读量283

点赞数 5

分类专栏： autoformer 文章标签： php 开发语言

本文链接：https://blog.csdn.net/m0_51200050/article/details/140170280

版权

29 篇文章 0 订阅

订阅专栏

在 Autoformer 架构中，前馈网络是处理分解后的时间序列数据并提取更多特征的重要组成部分。前馈网络用于对从序列分解模块（Series Decomposition）输出的趋势和季节性成分进行进一步处理，以提高模型的特征提取能力和预测性能。

前馈网络（Feed Forward Network, FFN）通常由一系列全连接层（Fully Connected Layers）组成。其基本结构可以描述为：

$\text{FFN}(x) = \sigma(W_2 \cdot \sigma(W_1 \cdot x + b_1) + b_2)$

其中：
- $x$ 是输入向量。
- $W_1$ 和 $W_2$ 是可训练的权重矩阵。
- $b_1$ 和 $b_2$ 是偏置向量。
- $\sigma$ 是激活函数（如 ReLU）。

在 Autoformer 中，前馈网络主要用于对经过序列分解后的时间序列数据进行非线性变换，以提取更高层次的特征。

输入处理：
- 从序列分解模块输出的趋势和季节性成分作为前馈网络的输入。
非线性变换：
- 输入数据通过第一层全连接层，应用激活函数进行非线性变换：
  $h_1 = \sigma(W_1 \cdot x + b_1)$
- 这一步可以将输入数据映射到一个新的特征空间中。
进一步处理：
- 非线性变换后的数据再通过第二层全连接层：
  $h_2 = W_2 \cdot h_1 + b_2$
- 第二层全连接层进一步处理和提取特征。
输出：
- 处理后的数据作为前馈网络的输出，并传递回序列分解模块进行进一步的细化处理。

假设我们有如下的时间序列数据，经过序列分解模块后得到的趋势和季节性成分如下：

在前馈网络中，我们将这些数据输入进行处理。假设每个时间点的输入向量为 $x_t = [\text{趋势}_t, \text{季节性}_t]$ ，前馈网络的处理如下：

第一层全连接层：
- 对于每个输入 $x_t$ ，计算：
  $h_{1,t} = \sigma(W_1 \cdot x_t + b_1)$
- 假设 $W_1$ 和 $b_1$ 的维度为 $\times 4$ 和 $4$ ，输出向量 $h_{1,t}$ 的维度为 4。
第二层全连接层：
- 对于 $h_{1,t}$ ，计算：
  $h_{2,t} = W_2 \cdot h_{1,t} + b_2$
- 假设 $W_2$ 和 $b_2$ 的维度为 $\times 2$ 和 $2$ ，输出向量 $h_{2,t}$ 的维度为 2。
输出结果：
- 处理后的结果 $h_{2,t}$ 作为前馈网络的输出，并传递回序列分解模块进行进一步的处理和细化。

假设我们在某个时间点 $t$ 的输入为 $x_t = [160, -60]$ ，经过前馈网络处理后的步骤如下：

第一层全连接层：
- 计算：
  $h_{1,t} = \sigma \left( \begin{bmatrix} w_{11} & w_{12} & w_{13} & w_{14} \\ w_{21} & w_{22} & w_{23} & w_{24} \end{bmatrix} \cdot \begin{bmatrix} 160 \\ -60 \end{bmatrix} + \begin{bmatrix} b_{11} \\ b_{12} \\ b_{13} \\ b_{14} \end{bmatrix} \right)$
- 得到一个 4 维的中间向量 $h_{1,t}$ 。
第二层全连接层：
- 计算：
  $h_{2,t} = \begin{bmatrix} w_{11}' & w_{12}' \\ w_{21}' & w_{22}' \\ w_{31}' & w_{32}' \\ w_{41}' & w_{42}' \end{bmatrix} \cdot h_{1,t} + \begin{bmatrix} b_{21} \\ b_{22} \end{bmatrix}$
- 得到一个 2 维的输出向量 $h_{2,t}$ 。

前馈网络在 Autoformer 中用于对分解后的趋势和季节性成分进行非线性变换，进一步提取和细化特征。通过全连接层和激活函数的处理，前馈网络能够捕捉更高层次的特征，并为后续的序列分解和预测提供更丰富的信息。这一过程增强了模型的特征提取能力，从而提高了时间序列预测的准确性。

关注

专栏目录