时间序列之时间戳嵌入

最新推荐文章于 2025-03-25 21:01:32 发布

six.学长

最新推荐文章于 2025-03-25 21:01:32 发布

阅读量1.4k

点赞数 14

分类专栏： informer 时间序列文章标签：机器学习算法人工智能

本文链接：https://blog.csdn.net/m0_51200050/article/details/139774232

版权

informer 同时被 2 个专栏收录

39 篇文章

订阅专栏

时间序列

9 篇文章

订阅专栏

时间戳嵌入， $[SE_{\text{hour}}(6), SE_{\text{minute}}(6)]$ 表示第6个位置的全局时间戳嵌入（Stamp Embedding），其中 SE 是可学习的嵌入向量。这些嵌入向量帮助模型捕捉序列数据中全局时间信息，如小时和分钟。

全局时间戳嵌入的详细解释

假设我们有两种全局时间戳类型：小时（hour）和分钟（minute）。对于位置 6 的元素：

$SE_{\text{hour}}(6)$ 表示与该位置关联的小时时间戳嵌入。
$SE_{\text{minute}}(6)$ 表示与该位置关联的分钟时间戳嵌入。

这些嵌入是可学习的，即在训练过程中，模型会根据数据调整这些嵌入向量的值。

在你给出的上下文中， $SE$ （Stamp Embedding，全局时间戳嵌入）确实表示的是时间向量。这些时间向量用于捕捉和表示序列数据中的全局时间信息，如小时和分钟。具体来说， $SE$ 是一种将时间戳信息编码成模型可以处理的向量表示的方式。

全局时间戳嵌入的详细说明

假设我们有两个全局时间戳类型：小时（hour）和分钟（minute）。每个时间戳类型都有一个对应的嵌入矩阵。对于序列中每个位置，我们都为其生成一个时间向量，这个向量是通过查找嵌入矩阵得到的。

嵌入矩阵和时间戳向量

嵌入矩阵：对于每个时间戳类型（如小时和分钟），我们有一个嵌入矩阵。这些矩阵的维度是 $d_{\text{model}}$ ，它是模型的特征维度。
- 小时嵌入矩阵： $E_{\text{hour}} \in \mathbb{R}^{24 \times d_{\text{model}}}$ ，因为小时有 24 个不同的值（0 到 23）。
- 分钟嵌入矩阵： $E_{\text{minute}} \in \mathbb{R}^{60 \times d_{\text{model}}}$ ，因为分钟有 60 个不同的值（0 到 59）。
时间戳向量：对于每个位置 $\text{pos}$ ，我们通过查找嵌入矩阵来得到对应的时间戳向量。例如，如果位置 $\text{pos}$ 的时间戳是 3 小时 15 分钟，那么：
- 小时向量： $SE_{\text{hour}}(\text{pos}) = E_{\text{hour}}[3]$
- 分钟向量： $SE_{\text{minute}}(\text{pos}) = E_{\text{minute}}[15]$

时间戳嵌入公式

对于位置 $\text{pos}$ ，全局时间戳嵌入 $SE(\text{pos})$ 可以表示为这些时间向量的组合：
$SE(\text{pos}) = [SE_{\text{hour}}(\text{pos}), SE_{\text{minute}}(\text{pos})]$

示例说明1

假设我们有以下参数：

嵌入维度 $d_{\text{model}} = 4$
时间戳类型 $p = 2$ （小时和分钟）

对于位置 $\text{pos} = 6$ ，其时间戳为 3 小时 15 分钟：

小时嵌入向量：
$SE_{\text{hour}}(6) = E_{\text{hour}}[3]$
如果 $E_{\text{hour}}[3]$ 是 $[0.1, 0.2, 0.3, 0.4]$ ，那么 $SE_{\text{hour}}(6) = [0.1, 0.2, 0.3, 0.4]$ 。
分钟嵌入向量：
$SE_{\text{minute}}(6) = E_{\text{minute}}[15]$
如果 $E_{\text{minute}}[15]$ 是 $[0.5, 0.6, 0.7, 0.8]$ ，那么 $SE_{\text{minute}}(6) = [0.5, 0.6, 0.7, 0.8]$ 。

最终，位置 $\text{pos} = 6$ 的全局时间戳嵌入向量为：
$[SE_{\text{hour}}(6), SE_{\text{minute}}(6)] = [[0.1, 0.2, 0.3, 0.4], [0.5, 0.6, 0.7, 0.8]]$

输入向量的整合

将这些嵌入向量整合到输入向量中，我们有：
$X_t^{\text{feed}}[i] = \alpha u_t^i + \text{PE}\left(L_x \times (t-1) + i\right) + \sum_{p} SE_p\left(L_x \times (t-1) + i\right)$