自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(66)
  • 收藏
  • 关注

原创 多头注意力最后每个头生成的矩阵是拼在一起吗

多头注意力机制中的每个头生成的注意力输出矩阵是拼接在一起的,然后通过一个线性变换生成最终的输出。这种机制允许模型在多个子空间中并行计算注意力,从而捕捉到更丰富和多样的特征,提高模型的表示能力和性能。

2024-06-21 09:58:15 463

原创 嵌入向量的维度越高它能够捕捉和表示的特征和细节就越多

高维嵌入向量能够捕捉和表示更多的特征和细节,主要因为它们提供了更大的表示空间、更高的自由度、能够捕捉复杂的特征组合和交互,并且可以更好地近似和保留原始数据的信息。在实际应用中,这种能力使得高维嵌入向量在处理复杂的自然语言处理任务时表现优异。

2024-06-21 09:34:46 324

原创 One-Hot Encoding(独热编码)

One-Hot Encoding(独热编码)是一种简单但强大的编码技术,用于将离散的分类数据转换为向量形式。尽管这种方法会导致高维稀疏表示,但它在分类和自然语言处理等任务中非常有效。为了提高计算效率和内存利用率,通常会结合其他技术(如嵌入层)来处理这些高维稀疏向量。

2024-06-21 09:26:40 364

原创 在机器学习和自然语言处理领域的上下文(context)

在机器学习和自然语言处理领域,上下文(context)指的是当前数据点在整个数据序列中的位置和相关信息。这些信息可以帮助理解和预测当前数据点的含义或未来的数据点。上下文在时间序列数据、自然语言处理、图像处理等多个领域中都非常重要。

2024-06-20 17:15:52 510

原创 详解循环神经网络(Recurrent Neural Network,RNN)(小白可入)

循环神经网络(Recurrent Neural Network,RNN)是一种擅长处理序列数据的神经网络架构。与传统的前馈神经网络不同,RNN具有内部的循环机制,可以保持序列中的上下文信息,使其特别适用于处理时间序列数据、自然语言处理等任务。

2024-06-20 17:13:15 675

原创 informer之Proof of Proposition 1(命题1的证明)

informer之Proof of Proposition 1(命题1的证明)

2024-06-20 10:31:32 248

原创 informer之Proof of Lemma 1(引理1证明)M(q_i, K)

informer之Proof of Lemma 1(引理1证明)M(q_i, K),我们用详细的数学推导和结论证明了该不等式的正确性,我们将其分为两个部分进行讨论:不等式的左部分和右部分。

2024-06-20 09:43:00 547

原创 嵌入层(Embedding Layer)将输入数据转换为高维向量表示的详细解释(附有嵌入矩阵W的生成过程)

嵌入层是一种查找表,将离散的输入数据(如词或时间序列中的特征)映射到一个连续的高维向量空间中。这个过程可以看作是将每个离散的输入映射为一个向量。

2024-06-19 15:26:51 635

原创 informer之解码器的输入过程详细解释

通过1x3 Conv1d层和嵌入层,解码器的输入特征被进一步提取和转换为高维度的向量表示,这些表示更适合后续的注意力机制和解码器中的处理步骤。这个过程通过局部卷积和高维嵌入来增强输入特征的表示能力,从而使模型能够更好地捕捉和利用序列中的模式和依赖关系。首先,解码器接收来自编码器的输出特征,通常这些特征已经过卷积、注意力机制和蒸馏等处理,具有较高的特征表示能力。解码器的任务是将这些高层次的特征转换为目标输出。解码器的输入过程与编码器有一些相似之处,但也有其特定的特点和处理步骤。

2024-06-19 10:58:18 546

原创 深刻理解Informer中的Scalar和Stamp(通俗易懂版)

Scalar(数值特征):代表时间序列中的实际数值信息,如温度、湿度等。Stamp(时间戳特征):代表时间序列中的时间标记信息,如日期、一年中的第几天等。通过同时处理Scalar和Stamp特征,Informer模型能够更好地捕捉时间序列数据中的数值和时间依赖性特征,从而提高预测的准确性。

2024-06-19 10:51:17 284

原创 编码器的蒸馏(Distilling)详细解释

蒸馏(Distilling)步骤是在稀疏注意力块之后,用于进一步压缩和提炼特征表示。这个步骤的主要目的是减少序列长度,使得模型能够更有效地处理长时间序列数据,同时保持重要的特征信息。

2024-06-19 10:13:45 724

原创 编码器的稀疏注意力块(ProbSparse Self-Attention Block)

稀疏注意力块是Informer模型的核心组件之一,旨在高效处理长时间序列数据。它通过稀疏自注意力机制(ProbSparse Self-Attention)显著降低计算复杂度,同时保持较高的性能。

2024-06-19 10:08:10 748

原创 编码器输入的详细过程(文章最后有位置编码加入)

通过1x3 Conv1d层和嵌入层,输入的原始时间序列数据被转换成高维度的特征表示,这些表示更适合后续的注意力机制和编码器中的处理步骤。这个过程通过局部卷积和高维嵌入来增强输入数据的特征表示能力,从而使模型能够更好地捕捉和利用时间序列中的模式和依赖关系。首先,输入数据是一个时间序列数据。例如,假设我们要处理的是每日销售量的数据,输入数据可以表示为一个包含时间和销售量的序列。

2024-06-19 09:48:52 687

原创 M(q_i,K)稀疏测量值很小 是不是代表这个q不重要

稀疏测量值很小并不一定直接意味着查询qi​不重要。实际上,稀疏性测量值的解释可以更加复杂。让我们更深入地分析这个测量值及其含义。

2024-06-19 09:34:33 407

原创 informer之附录C 自注意力特征图中的长尾分布

长尾分布的意义长尾分布表明模型在处理数据时会集中注意力于少数关键部分,这些部分对模型的决策有重大影响。大多数注意力得分较低的部分可以在计算时被忽略,从而提高模型的计算效率。热力图的意义热力图显示了自注意力机制在不同位置上的关注度。红色竖线的出现位置是模型认为重要的时刻或特征。通过分析这些高关注位置,可以理解模型在决策时关注的关键因素。这张图帮助我们理解 Transformer 模型的自注意力机制如何在处理 ETTh1 数据集时分配注意力,从而提高模型的预测能力和效率。

2024-06-18 16:45:57 340

原创 Informer 的输入表示

这个图展示了如何将不同类型的嵌入(embeddings)组合起来形成最终的输入向量。具体来说,它展示了三种嵌入的组合:标量投射(Scalar Projection)、局部时间戳嵌入(Local Time Stamp Position Embeddings)和全局时间戳嵌入(Global Time Stamp Embeddings)。

2024-06-18 16:30:40 794

原创 时间序列之标量上下文

输入向量中的αuti​部分代表的是将标量上下文投射到特征维度 d上的向量,乘以一个平衡因子α。

2024-06-18 15:31:40 823

原创 时间序列之时间戳嵌入

时间戳嵌入,SE6表示第6个位置的全局时间戳嵌入(Stamp Embedding),其中SE是可学习的嵌入向量。这些嵌入向量帮助模型捕捉序列数据中全局时间信息,如小时和分钟。

2024-06-18 15:19:27 748

原创 时间序列之时间步

在序列建模中,(time step)通常指的是序列中每个元素的位置,这个位置可以表示为序列的索引。时间步在处理时序数据(如时间序列、文本序列等)时尤为重要,因为它帮助模型捕捉序列中数据点的时间依赖关系。

2024-06-18 15:08:15 909

原创 每个全局时间戳通过可学习的时间戳嵌入 SE(pos) 实现,pos代表的是序列中某个元素的位置(position)。

每个全局时间戳通过可学习的时间戳嵌入 SE(pos) 实现,pos代表的是序列中某个元素的位置(position)。具体来说:在位置嵌入(Position Embedding)中,pos用于标识序列中元素的位置,从而生成该位置的嵌入向量。位置嵌入帮助模型理解输入序列的顺序信息。在全局时间戳嵌入(Stamp Embedding)中,pos同样用于标识位置,并在生成相应的嵌入向量时作为索引。让我们更详细地看一下pos。

2024-06-18 14:53:57 367

原创 Informer网络的各个组件和结构(超详细)

这张图表详细描述了Informer网络的各个组件和结构,包括编码器(Encoder)和解码器(Decoder),以及每一部分的具体操作。以下是对每个部分的详细解释:

2024-06-18 10:07:37 645

原创 Informer模型中关于输入隐藏输出层和线性非线性变换的关系

输入层:线性变换用于嵌入和位置编码。隐藏层:线性变换和非线性变换交替作用,主要在多头自注意力机制和前馈神经网络中。输出层:线性变换用于将隐藏层的输出转化为最终的预测结果。通过这些阶段的组合,Informer模型能够高效处理时间序列数据,捕捉复杂的时序关系并进行准确的预测。

2024-06-18 09:42:42 128

原创 截断反向传播算法(Truncated Backpropagation Through Time, Truncated BPTT)

截断反向传播算法(Truncated Backpropagation Through Time, Truncated BPTT)是一种用于训练循环神经网络(RNNs)的方法。标准的反向传播通过时间(BPTT)会将梯度计算展开到整个序列,但在处理长序列时,这种方法计算量大且容易导致梯度消失或梯度爆炸问题。截断反向传播算法通过限制反向传播的时间步数,从而减少计算量并缓解梯度问题。

2024-06-18 09:06:46 359 1

原创 点积时数值过大为什么会导致梯度消失

点积数值过大导致激活函数饱和,进而导致梯度消失问题。这在深层神经网络中特别明显。通过选择合适的激活函数、合理的权重初始化和使用归一化技术,可以有效缓解梯度消失问题,从而确保神经网络的训练过程顺利进行。

2024-06-17 16:09:38 286

原创 线性变换和非线性变换的作用

线性变换是一种数学操作,将输入向量通过线性函数映射到另一个向量空间。在线性变换中,输出是输入的线性组合,其一般形式为:其中,( W ) 是权重矩阵,( x ) 是输入向量,( b ) 是偏置向量,( y ) 是输出向量。非线性变换是指将线性变换后的输出通过非线性激活函数进行处理,激活函数是非线性的,使得输出不再是输入的简单线性组合。常见的激活函数包括 ReLU、sigmoid 和 tanh 等。线性变换和非线性变换在神经网络中各自发挥着重要的作用。

2024-06-17 15:58:34 246

原创 Self-Attention Distilling

Self-attention distilling 通过压缩输入序列和聚合注意力分数,减少了 self-attention 机制的计算复杂度,从而提高了 transformer 模型的计算效率。通过这种技术,模型可以在处理长序列数据时保持较高的计算效率和准确性,非常适合在资源有限的环境中应用。

2024-06-17 10:58:18 391

原创 消融实验(Ablation Study

消融实验(Ablation Study)是一种用于评估机器学习模型各个组成部分的重要性和贡献的方法。通过逐步移除或替换模型的某些组件,并观察模型性能的变化,研究人员可以确定每个组件对整体模型性能的影响。这样的方法有助于理解模型的工作机制和各个部分的作用。确定模型组件:基准性能测量:移除或替换组件:性能对比:总结和分析:以本文中描述的实验为例,研究人员在ETTh1数据集上对Informer模型进行了消融实验,评估了ProbSparse自注意力机制与其他自注意力机制(如LogTrans和Reformer)的性能

2024-06-17 10:41:42 264

原创 Reformer模型详解

Reformer模型

2024-06-17 10:33:14 626

原创 采样因子在Informer模型中控制了ProbSparse自注意力机制的信息带宽

最初可能会导致信息丢失,但随着我们逐渐增加采样因子到c=5,我们保留了更多的重要信息,同时仍然过滤掉了一些冗余信息,这样可以提高模型的准确性和效率。当我们进一步增加采样因子到c=10时,保留的信息过多,包含了大量冗余,模型的计算量增加,性能提升变得不明显,甚至可能会下降。这会产生大量的点积对,但并不是所有的点积对都是有用的。因此,在实际应用中,我们选择了采样因子c=5,因为它在性能和效率之间达到了一个良好的平衡。通过调整采样因子,我们可以有效控制自注意力机制的信息带宽,优化模型的计算效率和预测性能。

2024-06-17 09:18:58 284

原创 深度学习之粒度

在informer描述的实验中,ETTm1数据集使用的是分钟级别的数据,而ETTh1数据集使用的是小时级别的数据。通过使用不同长度的序列(例如96分钟、288分钟、672分钟 vs. 24小时、48小时、168小时)进行预测,我们可以比较模型在不同时间粒度下的性能表现。例如,一分钟级别的数据意味着每分钟记录一个数据点,而一小时级别的数据则意味着每小时记录一个数据点。分钟级别的数据细致,变化频繁,需要处理更多的数据点,而小时级别的数据相对粗略,变化较缓慢,数据点相对较少。

2024-06-17 09:11:19 144

原创 非线性变换和特征提取

非线性变换和特征提取是神经网络中的关键步骤,尤其在隐藏层中。

2024-06-16 17:11:57 181

原创 LogTrans和Reformer

虽然LogTrans和Reformer都基于Transformer结构,并在处理长序列时间预测方面表现出色,但它们在具体方法上有所不同。LogTrans通过对数变换和改进的自注意力机制来增强模型的预测能力,而Reformer则通过减少计算复杂度和内存使用来提高模型的效率和可扩展性。总结:LogTrans:适用于需要捕捉长期依赖关系且数据动态范围较大的时间序列预测任务。Reformer:适用于需要处理大规模数据集且对计算资源要求较高的时间序列预测任务。

2024-06-16 16:31:57 362

原创 论文记:关于论文里Metric的理解

在机器学习深度学习相关论文中,表格里的 Metric(指标) 通常用于评估模型在时间序列预测任务中的性能。这些指标可以帮助研究人员和从业人员理解和比较不同模型的效果。这些指标在informer论文中用于比较不同模型或不同实验条件下模型的预测性能,通过这些指标可以量化模型的误差、准确性和解释能力,从而做出科学的评估和改进。

2024-06-16 16:30:36 269

原创 简述Informer模型中的编码器和解码器

简述Informer模型中的编码器和解码器

2024-06-16 16:14:40 276

原创 模型的损失(Loss)

模型的损失(Loss)

2024-06-16 16:10:42 326

原创 informer中的超参数调优

informer中的超参数调优

2024-06-16 15:43:30 588

原创 安装PyTorch的步骤以及验证是否安装成功

安装PyTorch的步骤以及验证是否安装成功

2024-06-16 15:22:20 254

原创 为什么普通的机器学习/深度学习算法无法处理时间序列数据?你了解时序算法设计过程中的核心需求吗?

为什么普通的机器学习/深度学习算法无法处理时间序列数据?你了解时序算法设计过程中的核心需求吗?

2024-06-16 15:14:13 361

原创 在支持向量机(SVM)中超平面如何将数据分成不同的类别

在支持向量机(SVM)中超平面如何将数据分成不同的类别

2024-06-15 10:41:52 302

原创 超详细 Conda 指令详解---附有相应的示例

超详细 Conda 指令详解---附有相应的示例

2024-06-15 10:35:14 1319

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除