机器学习
文章平均质量分 81
six.学长
爱科研的小逯
展开
-
贝叶斯公式(Bayes‘ Theorem)and 贝叶斯算法(朴素贝叶斯分类器(Naive Bayes Classifier))
贝叶斯公式(Bayes’ Theorem)是概率论中的一个基本公式,用于计算一个事件在已知另一事件发生的条件下的概率。贝叶斯公式的基本思想是通过已有数据更新我们的信念或预测。PA∣BPBPB∣A⋅PA这里,PA∣B表示在事件B已经发生的情况下事件A发生的条件概率。其他符号的解释如下:PA:事件A发生的先验概率(在未观察到事件B时对A发生的信念)。PB:事件B发生的边缘概率(所有可能情况下B发生的概率)。PB∣A:事件A。原创 2024-07-08 09:20:28 · 1048 阅读 · 0 评论 -
什么是频域和时域
频域和时域是分析和描述信号的两种不同方法,它们各自提供了对信号的不同视角。原创 2024-07-05 10:53:08 · 1925 阅读 · 0 评论 -
快速傅里叶变换(FFT)
快速傅里叶变换(Fast Fourier Transform,FFT)是一种用于计算离散傅里叶变换(Discrete Fourier Transform,DFT)的高效算法。傅里叶变换将时间域或空间域的信号转换到频域,从而可以更方便地分析信号的频率成分。通过上述过程,Autoformer 利用 FFT 高效地计算时间序列数据的自相关函数,从而捕捉时间延迟相似性,提升模型对周期性依赖关系的捕捉能力。傅里叶变换的基本思想是将一个复杂的时间序列分解为不同频率的正弦波和余弦波的组合。个时间点进行累加运算。原创 2024-07-04 14:33:57 · 615 阅读 · 0 评论 -
离散傅里叶变换(DFT)
对于一个长度为NNN的离散时间序列xnx[n]xn,其离散傅里叶变换XkX[k]XkXk∑n0N−1xne−j2πNknk01N−1Xkn0∑N−1xne−jN2πknk01N−1其中:XkX[k]Xk是频域信号的第kkk个频率分量。xnx[n]xn是时间域信号的第nnn个时间点。jjj是虚数单位,满足j2−1j^2 = -1j2−。原创 2024-07-04 10:55:18 · 2325 阅读 · 0 评论 -
隐藏状态(Hidden State)
在递归神经网络中,隐藏状态hth_tht是对输入序列xtx_txt在时间步ttt的编码。htfht−1xthtfht−1xt其中:hth_tht:时间步ttt的隐藏状态。ht−1h_{t-1}ht−1:前一个时间步的隐藏状态。xtx_txt:时间步ttt的输入。fff:一个非线性函数,通常是通过神经网络层实现的。原创 2024-06-27 08:49:26 · 2017 阅读 · 0 评论 -
门控循环单元(GRU)
通过这个具体的数值例子,我们可以看到 GRU 如何通过重置门和更新门来控制信息的流动,从而在序列建模中捕捉长时间范围内的依赖关系。相比于 LSTM,GRU 结构更简单,计算效率更高,同时在很多任务上性能与 LSTM 相近。这使得 GRU 在处理序列数据时成为一种有效的选择。原创 2024-06-26 19:04:18 · 996 阅读 · 0 评论 -
长短期记忆(Long Short-Term Memory, LSTM)网络
通过解缠结注意力机制,我们将单词的内容和位置独立表示,并分别计算它们的注意力矩阵。然后,将这两个注意力矩阵结合起来,得到最终的注意力矩阵。这种方法使模型能够更好地捕捉单词之间的语义关系和相对位置关系,从而提高模型的表现。这种方法在实际应用中,尤其是在自然语言处理任务中,可以帮助模型更准确地理解和生成语言,同时增强其对上下文的捕捉能力。原创 2024-06-26 19:01:12 · 1035 阅读 · 0 评论 -
Rotary Positional Embedding (RoPE)
RoPE 通过将正弦和余弦位置编码嵌入到查询和键向量的旋转变换中,从而在自注意力机制中引入位置感知。这种方法在处理长序列和捕捉序列中元素的相对关系时表现得更好,并且能够灵活地适应不同的序列长度和任务需求。通过上面的示例,可以看到 RoPE 如何在查询和键向量中引入位置信息,从而实现更加有效的注意力机制。涉及到Rotary Positional Embedding(RoPE)的论文主要集中在改进Transformer模型及其在时间序列处理中的应用。原创 2024-06-25 19:09:36 · 964 阅读 · 0 评论 -
相对位置编码(Relative Positional Encoding)
相对位置编码在注意力机制中引入了元素之间的相对位置信息,而不是依赖于绝对位置。这种方法在处理长序列和捕捉序列中的相对关系时表现得更好。通过这个例子,可以看到相对位置编码如何影响注意力得分的计算,从而在注意力机制中更好地捕捉位置关系。涉及相对位置编码(Relative Positional Encoding)的时间序列处理相关论文主要集中在改进Transformer模型及其在自然语言处理和时间序列预测中的应用。原创 2024-06-25 18:53:22 · 3053 阅读 · 0 评论 -
以 Informer 模型在时间序列预测任务中的应用为例,详细解释全连接层的作用
在 Informer 模型中,全连接层的作用是将编码器和解码器提取到的高维特征向量映射到最终的输出空间。在时间序列预测任务中,全连接层通常用于将高维特征向量转换为具体的预测值,如未来的电力消耗量。这个过程包括矩阵乘法和加偏置操作,使得模型能够综合和转换复杂的特征信息,输出所需的预测结果。原创 2024-06-24 18:59:58 · 603 阅读 · 0 评论 -
informer的改进---降低计算量
自然对数更易处理的主要原因在于它能够有效压缩大数值,保持数值稳定性,保留相对差异,并简化梯度计算。在复杂的深度学习模型中,如Informer中的稀疏自注意力机制,使用自然对数有助于提高计算效率和稳定性,确保模型能够在处理大规模数据时仍然保持高效和可靠。总结来说,这个改进的计算方法通过定义一个新的稀疏性度量,使得Informer模型能够有效地降低计算复杂度,同时保持高效的注意力机制。原创 2024-06-24 16:39:25 · 786 阅读 · 0 评论 -
残差网络(Residual Network, ResNet)中的残差连接公式解释
假设某层的输入为xxx,该层的输出为FxFxyFxxyFxxxxx是输入。FxFx是通过该层的变换(通常是卷积、激活函数等)得到的输出。yyy是该层经过残差连接后的输出。残差连接是ResNet中引入的一种创新设计,旨在通过直接将输入添加到输出,帮助深度神经网络更好地学习,并有效地缓解梯度消失问题。通过这种设计,网络不仅能够更容易地学习到恒等映射,还能在训练过程中保持梯度的有效传递,从而提高深度神经网络的训练效果和性能。原创 2024-06-24 14:42:15 · 914 阅读 · 0 评论 -
填充(Padding)是卷积神经网络(CNN)中一种技术,填充的主要目的是
填充(Padding)是卷积神经网络(CNN)中一种技术,通过在输入特征图的边缘添加像素,以控制输出特征图的空间维度。原创 2024-06-24 10:17:22 · 911 阅读 · 0 评论 -
池化层输出数据的维度计算公式
池化层(Pooling Layer)在卷积神经网络中常用于下采样。池化操作有助于减少模型的参数量和计算量,并防止过拟合。池化层常见的类型包括最大池化(Max Pooling)和平均池化(Average Pooling)。举个例子,假设输入特征图的尺寸为。因此,池化层输出的特征图尺寸为。,池化层输出特征图的高度。假设输入特征图的尺寸为。原创 2024-06-24 10:14:26 · 1009 阅读 · 0 评论 -
在Transformer模型中d_k是如何确定的
在多头注意力机制中,确定了每个头的维度dkd_kdk和dvd_vdv后,权重矩阵WQW_QWQWKW_KWK和WVW_VWVWQ∈R512×64WK∈R512×64WV∈R512×64WQ∈R512×64WK∈R512×64WV∈R512×64。原创 2024-06-23 09:34:36 · 968 阅读 · 0 评论 -
多头注意力(Multi-Head Attention)输出前的最后一次的线性变换是为了什么(超清晰举例)
多头注意力(Multi-Head Attention)输出前的最后一次的线性变换是为了什么(超清晰举例)原创 2024-06-23 09:14:23 · 456 阅读 · 0 评论 -
详细说明自注意力机制的输出向量如何反映输入序列中每个元素的上下文信息和重要性
详细说明自注意力机制的输出向量如何反映输入序列中每个元素的上下文信息和重要性原创 2024-06-22 11:10:30 · 585 阅读 · 0 评论 -
为什么时间序列特征矩阵直接求点积可以反映两者之间的相关性
两个向量aa1a2anaa1a2an和bb1b2bnbb1b2bna⋅b∑i1naibia⋅b∑i1naibi点积的结果是一个标量。点积可以反映两个向量之间的相关性,因为它将向量的每个对应元素相乘并求和,结果直接与向量之间的夹角余弦成比例。通过点积可以判断两个向量是正相关、负相关还是不相关,从而在时间序列分析中用于度量特征向量的相似性。原创 2024-06-21 19:06:51 · 983 阅读 · 0 评论 -
嵌入向量的维度越高它能够捕捉和表示的特征和细节就越多
高维嵌入向量能够捕捉和表示更多的特征和细节,主要因为它们提供了更大的表示空间、更高的自由度、能够捕捉复杂的特征组合和交互,并且可以更好地近似和保留原始数据的信息。在实际应用中,这种能力使得高维嵌入向量在处理复杂的自然语言处理任务时表现优异。原创 2024-06-21 09:34:46 · 656 阅读 · 0 评论 -
One-Hot Encoding(独热编码)
One-Hot Encoding(独热编码)是一种简单但强大的编码技术,用于将离散的分类数据转换为向量形式。尽管这种方法会导致高维稀疏表示,但它在分类和自然语言处理等任务中非常有效。为了提高计算效率和内存利用率,通常会结合其他技术(如嵌入层)来处理这些高维稀疏向量。原创 2024-06-21 09:26:40 · 766 阅读 · 0 评论 -
在机器学习和自然语言处理领域的上下文(context)
在机器学习和自然语言处理领域,上下文(context)指的是当前数据点在整个数据序列中的位置和相关信息。这些信息可以帮助理解和预测当前数据点的含义或未来的数据点。上下文在时间序列数据、自然语言处理、图像处理等多个领域中都非常重要。原创 2024-06-20 17:15:52 · 977 阅读 · 0 评论 -
每个全局时间戳通过可学习的时间戳嵌入 SE(pos) 实现,pos代表的是序列中某个元素的位置(position)。
每个全局时间戳通过可学习的时间戳嵌入 SE(pos) 实现,pos代表的是序列中某个元素的位置(position)。具体来说:在位置嵌入(Position Embedding)中,pos用于标识序列中元素的位置,从而生成该位置的嵌入向量。位置嵌入帮助模型理解输入序列的顺序信息。在全局时间戳嵌入(Stamp Embedding)中,pos同样用于标识位置,并在生成相应的嵌入向量时作为索引。让我们更详细地看一下pos。原创 2024-06-18 14:53:57 · 434 阅读 · 0 评论 -
截断反向传播算法(Truncated Backpropagation Through Time, Truncated BPTT)
截断反向传播算法(Truncated Backpropagation Through Time, Truncated BPTT)是一种用于训练循环神经网络(RNNs)的方法。标准的反向传播通过时间(BPTT)会将梯度计算展开到整个序列,但在处理长序列时,这种方法计算量大且容易导致梯度消失或梯度爆炸问题。截断反向传播算法通过限制反向传播的时间步数,从而减少计算量并缓解梯度问题。原创 2024-06-18 09:06:46 · 558 阅读 · 1 评论 -
Self-Attention Distilling
Self-attention distilling 通过压缩输入序列和聚合注意力分数,减少了 self-attention 机制的计算复杂度,从而提高了 transformer 模型的计算效率。通过这种技术,模型可以在处理长序列数据时保持较高的计算效率和准确性,非常适合在资源有限的环境中应用。原创 2024-06-17 10:58:18 · 452 阅读 · 0 评论 -
非线性变换和特征提取
非线性变换和特征提取是神经网络中的关键步骤,尤其在隐藏层中。原创 2024-06-16 17:11:57 · 247 阅读 · 0 评论 -
LogTrans和Reformer
虽然LogTrans和Reformer都基于Transformer结构,并在处理长序列时间预测方面表现出色,但它们在具体方法上有所不同。LogTrans通过对数变换和改进的自注意力机制来增强模型的预测能力,而Reformer则通过减少计算复杂度和内存使用来提高模型的效率和可扩展性。总结:LogTrans:适用于需要捕捉长期依赖关系且数据动态范围较大的时间序列预测任务。Reformer:适用于需要处理大规模数据集且对计算资源要求较高的时间序列预测任务。原创 2024-06-16 16:31:57 · 656 阅读 · 0 评论 -
论文记:关于论文里Metric的理解
在机器学习深度学习相关论文中,表格里的 Metric(指标) 通常用于评估模型在时间序列预测任务中的性能。这些指标可以帮助研究人员和从业人员理解和比较不同模型的效果。这些指标在informer论文中用于比较不同模型或不同实验条件下模型的预测性能,通过这些指标可以量化模型的误差、准确性和解释能力,从而做出科学的评估和改进。原创 2024-06-16 16:30:36 · 382 阅读 · 0 评论 -
模型的损失(Loss)
模型的损失(Loss)原创 2024-06-16 16:10:42 · 691 阅读 · 0 评论 -
在支持向量机(SVM)中超平面如何将数据分成不同的类别
在支持向量机(SVM)中超平面如何将数据分成不同的类别原创 2024-06-15 10:41:52 · 354 阅读 · 0 评论 -
支持向量机(SVM)之超平面(Hyperplane)
支持向量机(SVM)之超平面(Hyperplane)原创 2024-06-15 10:04:19 · 1063 阅读 · 0 评论 -
支持向量机(SVM)之核函数(非小白)
支持向量机(SVM)之核函数(非小白)原创 2024-06-15 10:01:33 · 535 阅读 · 0 评论