编码器输入的详细过程(文章最后有位置编码加入)

six.学长

已于 2024-06-19 10:55:07 修改

阅读量706

点赞数 27

分类专栏： informer详细流程 informer 文章标签：长短时记忆网络

于 2024-06-19 09:48:52 首次发布

本文链接：https://blog.csdn.net/m0_51200050/article/details/139793036

版权

39 篇文章 0 订阅

订阅专栏

5 篇文章 0 订阅

订阅专栏

首先，输入数据是一个时间序列数据。例如，假设我们要处理的是每日销售量的数据，输入数据可以表示为一个包含时间和销售量的序列。

数据预处理：
- 读取时间序列数据，假设有N个时间点，每个时间点的数据维度为1（如每日销售量）。
1x3 Conv1d 层处理：
- 将时间序列数据通过1x3的卷积核进行卷积操作，生成新的特征表示。
- 例如，对于时间点t，卷积操作考虑了 $t - 1, t, t + 1$ 三个时间点的数据，产生一个新的特征值。
嵌入层处理：
- 将卷积后的特征表示转换为高维向量。每个时间点的特征被映射到一个512维的向量空间。
- 这一步使用了嵌入矩阵，将每个时间点的特征表示映射为一个高维度的嵌入向量。

假设输入数据是一个长度为10的时间序列数据，表示过去10天的销售量：

$[50, 55, 60, 65, 70, 75, 80, 85, 90, 95]$

1x3 Conv1d 层处理：
- 第一个时间点的数据不能完整卷积，所以前几个时间点的卷积结果会有所填充。
- 例如，第一个有效卷积操作为： $\text{Conv}(50, 55, 60)$ ，产生一个新的特征值。这个过程会持续到整个序列都卷积完。
嵌入层处理：
- 将卷积后的每个特征值映射到一个512维的向量。
- 例如，假设卷积后的一组特征值为： $[20, 25, 30, 35, 40, 45, 50, 55, 60, 65]$ ，那么每个值将通过嵌入矩阵映射为一个512维向量。

从你提供的图中可以看到，Informer模型的处理流程如下：

原始输入：
- 输入序列 $T = t + D_x$ ，包含Scalar（实际数值）和Stamp（时间戳）。
卷积层（Conv1d）：
- Scalar和Stamp分别经过1x3卷积层处理，生成卷积后的表示。这一步用来提取局部特征。
- 图中，Scalar和Stamp分别经过两个单独的1x3卷积层，形成两个不同的卷积表示。
嵌入层（Embedding）：
- 卷积后的Scalar和Stamp表示分别经过嵌入层处理，转换为高维嵌入表示。
- 图中展示了两个嵌入操作，分别将卷积后的Scalar和Stamp表示转换为高维表示 ( d )。
加和操作：
- 卷积和嵌入后的Scalar和Stamp表示在加号处相加，形成一个结合了数值信息和时间戳信息的表示。
位置编码（Positional Encoding）：
- 最后，加入位置编码，以确保模型能够捕捉输入序列的相对位置关系。
- 图中没有明确显示位置编码的加法，但通常位置编码会在此步骤之后加入。

假设我们有如下时间序列数据：

日期	温度 (°C)	湿度 (%)	一年中的第几天
2023-06-01	25	60	152
2023-06-02	26	65	153
2023-06-03	24	58	154

通过上述步骤，Informer模型能够更好地理解和处理时间序列数据，充分利用数值和时间信息来进行预测。

通过1x3 Conv1d层和嵌入层，输入的原始时间序列数据被转换成高维度的特征表示，这些表示更适合后续的注意力机制和编码器中的处理步骤。这个过程通过局部卷积和高维嵌入来增强输入数据的特征表示能力，从而使模型能够更好地捕捉和利用时间序列中的模式和依赖关系。

关注