informer
文章平均质量分 81
six.学长
爱科研的小逯
展开
-
informer全流程
这个图展示了 Informer 网络的具体组件和细节。我们将分成编码器(Encoder)、蒸馏模块(Distilling)、解码器(Decoder)和最终输出(Final)四个部分来解释。输入(Inputs)概率稀疏自注意力块(ProbSparse Self-attention Block)输入(Inputs)带掩码的概率稀疏自注意力块(Masked ProbSparse Self-attention Block)假设输入数据为一个长度为 N=10N = 10N=10 的时间序列,每个时间步长包含 5 个特原创 2024-06-24 18:56:47 · 939 阅读 · 0 评论 -
informer模型架构解释(含举例说明)
informer模型架构解释原创 2024-06-12 11:14:20 · 460 阅读 · 0 评论 -
详细解释Informer模型的各部分
基于论文informer的模型,进行的详细解释并且举例说明(小白可入)原创 2024-06-12 10:21:37 · 1053 阅读 · 0 评论 -
以 Informer 模型在时间序列预测任务中的应用为例,详细解释全连接层的作用
在 Informer 模型中,全连接层的作用是将编码器和解码器提取到的高维特征向量映射到最终的输出空间。在时间序列预测任务中,全连接层通常用于将高维特征向量转换为具体的预测值,如未来的电力消耗量。这个过程包括矩阵乘法和加偏置操作,使得模型能够综合和转换复杂的特征信息,输出所需的预测结果。原创 2024-06-24 18:59:58 · 545 阅读 · 0 评论 -
informer的改进---降低计算量
自然对数更易处理的主要原因在于它能够有效压缩大数值,保持数值稳定性,保留相对差异,并简化梯度计算。在复杂的深度学习模型中,如Informer中的稀疏自注意力机制,使用自然对数有助于提高计算效率和稳定性,确保模型能够在处理大规模数据时仍然保持高效和可靠。总结来说,这个改进的计算方法通过定义一个新的稀疏性度量,使得Informer模型能够有效地降低计算复杂度,同时保持高效的注意力机制。原创 2024-06-24 16:39:25 · 731 阅读 · 0 评论 -
多头注意力最后每个头生成的矩阵是拼在一起吗
多头注意力机制中的每个头生成的注意力输出矩阵是拼接在一起的,然后通过一个线性变换生成最终的输出。这种机制允许模型在多个子空间中并行计算注意力,从而捕捉到更丰富和多样的特征,提高模型的表示能力和性能。原创 2024-06-21 09:58:15 · 711 阅读 · 0 评论 -
informer之Proof of Proposition 1(命题1的证明)
informer之Proof of Proposition 1(命题1的证明)原创 2024-06-20 10:31:32 · 377 阅读 · 0 评论 -
informer之Proof of Lemma 1(引理1证明)M(q_i, K)
informer之Proof of Lemma 1(引理1证明)M(q_i, K),我们用详细的数学推导和结论证明了该不等式的正确性,我们将其分为两个部分进行讨论:不等式的左部分和右部分。原创 2024-06-20 09:43:00 · 784 阅读 · 0 评论 -
嵌入层(Embedding Layer)将输入数据转换为高维向量表示的详细解释(附有嵌入矩阵W的生成过程)
嵌入层是一种查找表,将离散的输入数据(如词或时间序列中的特征)映射到一个连续的高维向量空间中。这个过程可以看作是将每个离散的输入映射为一个向量。原创 2024-06-19 15:26:51 · 1388 阅读 · 0 评论 -
informer之解码器的输入过程详细解释
通过1x3 Conv1d层和嵌入层,解码器的输入特征被进一步提取和转换为高维度的向量表示,这些表示更适合后续的注意力机制和解码器中的处理步骤。这个过程通过局部卷积和高维嵌入来增强输入特征的表示能力,从而使模型能够更好地捕捉和利用序列中的模式和依赖关系。首先,解码器接收来自编码器的输出特征,通常这些特征已经过卷积、注意力机制和蒸馏等处理,具有较高的特征表示能力。解码器的任务是将这些高层次的特征转换为目标输出。解码器的输入过程与编码器有一些相似之处,但也有其特定的特点和处理步骤。原创 2024-06-19 10:58:18 · 615 阅读 · 0 评论 -
深刻理解Informer中的Scalar和Stamp(通俗易懂版)
Scalar(数值特征):代表时间序列中的实际数值信息,如温度、湿度等。Stamp(时间戳特征):代表时间序列中的时间标记信息,如日期、一年中的第几天等。通过同时处理Scalar和Stamp特征,Informer模型能够更好地捕捉时间序列数据中的数值和时间依赖性特征,从而提高预测的准确性。原创 2024-06-19 10:51:17 · 434 阅读 · 0 评论 -
编码器的蒸馏(Distilling)详细解释
蒸馏(Distilling)步骤是在稀疏注意力块之后,用于进一步压缩和提炼特征表示。这个步骤的主要目的是减少序列长度,使得模型能够更有效地处理长时间序列数据,同时保持重要的特征信息。原创 2024-06-19 10:13:45 · 928 阅读 · 0 评论 -
编码器的稀疏注意力块(ProbSparse Self-Attention Block)
稀疏注意力块是Informer模型的核心组件之一,旨在高效处理长时间序列数据。它通过稀疏自注意力机制(ProbSparse Self-Attention)显著降低计算复杂度,同时保持较高的性能。原创 2024-06-19 10:08:10 · 1155 阅读 · 0 评论 -
编码器输入的详细过程(文章最后有位置编码加入)
通过1x3 Conv1d层和嵌入层,输入的原始时间序列数据被转换成高维度的特征表示,这些表示更适合后续的注意力机制和编码器中的处理步骤。这个过程通过局部卷积和高维嵌入来增强输入数据的特征表示能力,从而使模型能够更好地捕捉和利用时间序列中的模式和依赖关系。首先,输入数据是一个时间序列数据。例如,假设我们要处理的是每日销售量的数据,输入数据可以表示为一个包含时间和销售量的序列。原创 2024-06-19 09:48:52 · 734 阅读 · 0 评论 -
M(q_i,K)稀疏测量值很小 是不是代表这个q不重要
稀疏测量值很小并不一定直接意味着查询qi不重要。实际上,稀疏性测量值的解释可以更加复杂。让我们更深入地分析这个测量值及其含义。原创 2024-06-19 09:34:33 · 667 阅读 · 0 评论 -
informer之附录C 自注意力特征图中的长尾分布
长尾分布的意义长尾分布表明模型在处理数据时会集中注意力于少数关键部分,这些部分对模型的决策有重大影响。大多数注意力得分较低的部分可以在计算时被忽略,从而提高模型的计算效率。热力图的意义热力图显示了自注意力机制在不同位置上的关注度。红色竖线的出现位置是模型认为重要的时刻或特征。通过分析这些高关注位置,可以理解模型在决策时关注的关键因素。这张图帮助我们理解 Transformer 模型的自注意力机制如何在处理 ETTh1 数据集时分配注意力,从而提高模型的预测能力和效率。原创 2024-06-18 16:45:57 · 412 阅读 · 3 评论 -
Informer 的输入表示
这个图展示了如何将不同类型的嵌入(embeddings)组合起来形成最终的输入向量。具体来说,它展示了三种嵌入的组合:标量投射(Scalar Projection)、局部时间戳嵌入(Local Time Stamp Position Embeddings)和全局时间戳嵌入(Global Time Stamp Embeddings)。原创 2024-06-18 16:30:40 · 837 阅读 · 0 评论 -
时间序列之标量上下文
输入向量中的αuti部分代表的是将标量上下文投射到特征维度 d上的向量,乘以一个平衡因子α。原创 2024-06-18 15:31:40 · 837 阅读 · 0 评论 -
时间序列之时间戳嵌入
时间戳嵌入,SE6表示第6个位置的全局时间戳嵌入(Stamp Embedding),其中SE是可学习的嵌入向量。这些嵌入向量帮助模型捕捉序列数据中全局时间信息,如小时和分钟。原创 2024-06-18 15:19:27 · 833 阅读 · 0 评论 -
时间序列之时间步
在序列建模中,(time step)通常指的是序列中每个元素的位置,这个位置可以表示为序列的索引。时间步在处理时序数据(如时间序列、文本序列等)时尤为重要,因为它帮助模型捕捉序列中数据点的时间依赖关系。原创 2024-06-18 15:08:15 · 990 阅读 · 0 评论 -
每个全局时间戳通过可学习的时间戳嵌入 SE(pos) 实现,pos代表的是序列中某个元素的位置(position)。
每个全局时间戳通过可学习的时间戳嵌入 SE(pos) 实现,pos代表的是序列中某个元素的位置(position)。具体来说:在位置嵌入(Position Embedding)中,pos用于标识序列中元素的位置,从而生成该位置的嵌入向量。位置嵌入帮助模型理解输入序列的顺序信息。在全局时间戳嵌入(Stamp Embedding)中,pos同样用于标识位置,并在生成相应的嵌入向量时作为索引。让我们更详细地看一下pos。原创 2024-06-18 14:53:57 · 400 阅读 · 0 评论 -
Informer网络的各个组件和结构(超详细)
这张图表详细描述了Informer网络的各个组件和结构,包括编码器(Encoder)和解码器(Decoder),以及每一部分的具体操作。以下是对每个部分的详细解释:原创 2024-06-18 10:07:37 · 837 阅读 · 0 评论 -
Informer模型中关于输入隐藏输出层和线性非线性变换的关系
输入层:线性变换用于嵌入和位置编码。隐藏层:线性变换和非线性变换交替作用,主要在多头自注意力机制和前馈神经网络中。输出层:线性变换用于将隐藏层的输出转化为最终的预测结果。通过这些阶段的组合,Informer模型能够高效处理时间序列数据,捕捉复杂的时序关系并进行准确的预测。原创 2024-06-18 09:42:42 · 162 阅读 · 0 评论 -
截断反向传播算法(Truncated Backpropagation Through Time, Truncated BPTT)
截断反向传播算法(Truncated Backpropagation Through Time, Truncated BPTT)是一种用于训练循环神经网络(RNNs)的方法。标准的反向传播通过时间(BPTT)会将梯度计算展开到整个序列,但在处理长序列时,这种方法计算量大且容易导致梯度消失或梯度爆炸问题。截断反向传播算法通过限制反向传播的时间步数,从而减少计算量并缓解梯度问题。原创 2024-06-18 09:06:46 · 438 阅读 · 1 评论 -
点积时数值过大为什么会导致梯度消失
点积数值过大导致激活函数饱和,进而导致梯度消失问题。这在深层神经网络中特别明显。通过选择合适的激活函数、合理的权重初始化和使用归一化技术,可以有效缓解梯度消失问题,从而确保神经网络的训练过程顺利进行。原创 2024-06-17 16:09:38 · 320 阅读 · 0 评论 -
线性变换和非线性变换的作用
线性变换是一种数学操作,将输入向量通过线性函数映射到另一个向量空间。在线性变换中,输出是输入的线性组合,其一般形式为:其中,( W ) 是权重矩阵,( x ) 是输入向量,( b ) 是偏置向量,( y ) 是输出向量。非线性变换是指将线性变换后的输出通过非线性激活函数进行处理,激活函数是非线性的,使得输出不再是输入的简单线性组合。常见的激活函数包括 ReLU、sigmoid 和 tanh 等。线性变换和非线性变换在神经网络中各自发挥着重要的作用。原创 2024-06-17 15:58:34 · 379 阅读 · 0 评论 -
Self-Attention Distilling
Self-attention distilling 通过压缩输入序列和聚合注意力分数,减少了 self-attention 机制的计算复杂度,从而提高了 transformer 模型的计算效率。通过这种技术,模型可以在处理长序列数据时保持较高的计算效率和准确性,非常适合在资源有限的环境中应用。原创 2024-06-17 10:58:18 · 421 阅读 · 0 评论 -
采样因子在Informer模型中控制了ProbSparse自注意力机制的信息带宽
最初可能会导致信息丢失,但随着我们逐渐增加采样因子到c=5,我们保留了更多的重要信息,同时仍然过滤掉了一些冗余信息,这样可以提高模型的准确性和效率。当我们进一步增加采样因子到c=10时,保留的信息过多,包含了大量冗余,模型的计算量增加,性能提升变得不明显,甚至可能会下降。这会产生大量的点积对,但并不是所有的点积对都是有用的。因此,在实际应用中,我们选择了采样因子c=5,因为它在性能和效率之间达到了一个良好的平衡。通过调整采样因子,我们可以有效控制自注意力机制的信息带宽,优化模型的计算效率和预测性能。原创 2024-06-17 09:18:58 · 315 阅读 · 0 评论 -
简述Informer模型中的编码器和解码器
简述Informer模型中的编码器和解码器原创 2024-06-16 16:14:40 · 409 阅读 · 0 评论 -
informer中的超参数调优
informer中的超参数调优原创 2024-06-16 15:43:30 · 800 阅读 · 0 评论 -
KL散度后定义第i个查询的稀疏性度量
KL散度后定义第i个查询的稀疏性度量原创 2024-06-14 11:05:31 · 831 阅读 · 0 评论 -
informer的encoder编码器之分部介绍
informer的encoder编码器之分部介绍原创 2024-06-14 09:38:09 · 276 阅读 · 0 评论 -
激活函数的作用之Softmax函数详解与举例(小白可入)
激活函数的作用之Softmax函数详解与举例(小白可入)原创 2024-06-12 19:05:47 · 1163 阅读 · 0 评论 -
时间序列里的层归一化和残差连接
时间序列里的层归一化和残差连接原创 2024-06-12 18:52:24 · 383 阅读 · 0 评论 -
时间序列中的前馈神经网络 (Feed-Forward Neural Network) 详细解释及举例
时间序列中的前馈神经网络 (Feed-Forward Neural Network) 详细解释及举例(小白可入)原创 2024-06-12 18:23:31 · 598 阅读 · 0 评论 -
时间序列中的多头自注意力机制 (Multi-Head Self-Attention Mechanism) 详细解释及举例
时间序列中的多头自注意力机制 (Multi-Head Self-Attention Mechanism) 详细解释及举例原创 2024-06-12 17:15:50 · 468 阅读 · 0 评论 -
时间序列中的自注意力机制 (Self-Attention Mechanism) 详细解释及举例
时间序列里的自注意力实现过程(小白可入)原创 2024-06-12 17:01:01 · 684 阅读 · 0 评论 -
W权重矩阵的更新过程是什么样的
W权重矩阵的更新过程是什么样的原创 2024-06-12 16:54:14 · 296 阅读 · 0 评论 -
位置编码 (Positional Encoding) 的生成及详细解释
位置编码通过正弦和余弦函数生成,使每个位置上的编码值独特且具有顺序信息。位置编码向量与输入表示向量维度相同,添加后形成带有位置信息的输入表示。在具体应用中,位置编码有助于模型理解时间序列中的顺序关系。原创 2024-06-12 16:38:05 · 884 阅读 · 0 评论