自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(186)
  • 收藏
  • 关注

原创 结构化状态空间序列模型(S4)的图示解释

在选择性状态空间模型中,状态转移矩阵AAA、输入矩阵BtB_tBt​、输出矩阵CtC_tCt​和离散化参数Δt\Delta_tΔt​共同作用,决定了系统的动态行为和输入输出关系。通过动态调整这些参数,模型能够高效地处理长序列数据,适应不同的输入特性,提高计算效率和预测准确性。3. 输入选择机制(Selection Mechanism)Project:这个部分负责将输入映射到适合状态空间模型处理的高维空间。:这是一个选择机制,根据当前输入动态调整状态空间模型的参数(如B。

2024-07-15 14:53:40 677

原创 实验证实Mamba的潜力

通过在合成任务、音频和基因组学建模以及语言建模上的实验验证,Mamba展示了其作为通用序列基础模型的巨大潜力。它不仅在多个模态和任务上表现出色,还具备处理长上下文数据的能力,显著提高了训练和推理效率。Mamba的线性时间复杂度和高效性使其在实际应用中具有广泛的前景。

2024-07-14 08:40:15 361

原创 MLP是多层感知机(Multi-Layer Perceptron)

在Transformer模型中,MLP块用于在自注意力机制之后进一步处理信息。它通过两个线性变换和一个非线性激活函数实现对输入向量的非线性变换和处理,从而增强模型的表达能力。通过这种结构,Transformer能够在捕捉序列中不同位置之间的依赖关系的同时,有效处理和表示复杂的输入数据。

2024-07-14 08:31:36 743

原创 Mamba: Linear-Time Sequence Modeling with Selective State Spaces——Introduction 2

Mamba架构利用SSMs和MLP块的优势,创建了一个简单、高效且强大的序列模型。通过结合选择性状态空间,模型能够动态调整输入数据的重要性,从而在各种任务中表现更好。选择性SSMs和Mamba架构通过结合高质量性能、快速训练和推理以及处理长上下文的能力,成为通用基础模型在序列上运行的理想选择。这些特性使其在语言处理、基因组学等多个领域表现出色,处理长序列数据时具有显著优势。

2024-07-13 16:58:53 641

原创 Mamba: Linear-Time Sequence Modeling with Selective State Spaces——Introduction 1

首先,我们识别了先前模型的一个关键限制:在输入依赖的情况下有效选择数据的能力(即,关注或忽略特定输入)。基于选择性复制和归纳头等重要的合成任务的直觉,我们通过基于输入参数化SSM参数,设计了一个简单的选择机制。这使得模型能够过滤掉不相关的信息,并无限期地记住相关信息。

2024-07-13 16:54:49 595

原创 Abstract

然而,Transformer在处理长序列时的计算效率问题,促使研究人员开发了许多子二次时间复杂度的架构,如线性注意力、门控卷积和递归模型,以及结构化状态空间模型(SSMs)。尽管这些模型在计算效率上有所改进,但在语言等重要模态上的性能却不如传统的注意力机制。:通过让SSM参数成为输入的函数,解决了这些模型在离散模态(如语言)上的不足。:尽管这种改进阻止了使用高效的卷积运算,研究人员设计了一种在递归模式下的硬件感知并行算法,提升了计算效率。研究人员发现,这些模型在内容为基础的推理能力上存在关键弱点。

2024-07-13 12:41:16 284

原创 The S4 Parameterization: Normal Plus Low-Rank——HiPPO 矩阵的分解及其计算效率问题

通过上述分解和例子,我们可以理解 HiPPO 矩阵的分解方式及其局限性,并预期提出的三种新技术将有效解决计算瓶颈。这种方法使我们能够在实际应用中更高效地处理 HiPPO 矩阵。

2024-07-13 12:25:27 746

原创 The S4 Parameterization: Normal Plus Low-Rank——矩阵的对角化、条件数以及 HiPPO 矩阵的特性

通过这些具体的例子,我们可以看到为什么HiPPO矩阵不能被酉矩阵对角化,并理解对角化和条件数之间的关系。这段话讨论了矩阵的对角化、条件数以及 HiPPO 矩阵的特性。不能被酉矩阵对角化,验证了HiPPO矩阵不能被酉矩阵对角化的说法。是对称矩阵,必然是正规矩阵。,都无法得到一个对角矩阵。这个矩阵不是正规矩阵,因为。考虑一个简单的非正规矩阵。我们尝试找一个酉矩阵。,但无论我们怎么选择。

2024-07-13 12:12:04 1090

原创 Method: Structured State Spaces (S4)——动机:对角化(Motivation: Diagonalization)

通过将矩阵AAA转换为规范形式(特别是对角化),可以显著简化状态空间模型的计算。这一方法利用了范德蒙德矩阵的性质,通过快速傅里叶变换等高效算法,降低了计算复杂度,使得状态空间模型在处理大规模序列数据时更加高效和实用。

2024-07-12 17:14:07 618

原创 论文简要目录

在第1节中,我们介绍了状态空间模型(SSMs)的四种属性,这些属性在图1中有所描述:经典的连续时间表示、使用HiPPO框架处理LRD、离散时间递归表示和可并行化的卷积表示。特别是,第2.4节引入了SSM卷积核K,这是我们在第3节中理论贡献的重点。我们的技术成果集中在开发 S4 参数化,并展示如何高效计算所有视图的状态空间模型(SSM)(第2节):连续表示(A,B,C)(1),递归表示(A,B,C)(3),以及卷积表示 K(4)。

2024-07-12 09:43:49 306

原创 Background: State Spaces——训练状态空间模型(SSMs):卷积表示

通过将递归状态空间模型(SSM)转换为卷积表示,我们可以利用FFT等高效算法进行训练和计算。这种方法不仅解决了序列性问题,还显著提高了计算效率。卷积核KKK的计算虽然复杂,但这是实现高效计算的关键。

2024-07-12 09:38:04 537

原创 Background: State Spaces——Discrete-time SSM: The Recurrent Representation(离散时间 SSM:循环表示)

通过上述步骤,我们得到的离散化 SSM 可以处理离散输入序列,实现序列到序列的映射,并且可以像 RNN 一样进行计算。为了将连续时间 SSM 离散化,我们采用双线性方法(bilinear method),这种方法将状态矩阵。)时,我们需要将连续时间状态空间模型(SSM)离散化。通过以上步骤,我们将原本的连续时间 SSM 转换为一个序列到序列的映射。这样,离散化后的 SSM 可以像 RNN 一样计算。的函数,但为了书写方便,当上下文明确时,我们省略这层依赖关系。的模型调整为处理离散序列的方法。

2024-07-12 09:08:41 734

原创 Background: State Spaces——Addressing Long-Range Dependencies with HiPPO

HiPPO理论(High-order Polynomial Projection Operator)是一种连续时间记忆的理论,旨在通过特定矩阵A的使用来提升序列数据的记忆效果。LSSL(Linear State-Space Layer)利用该理论,旨在通过将特定的矩阵A整合到状态方程中,从而使状态x(t)能够记忆输入u(t)的历史。

2024-07-12 08:52:53 730

原创 Background: State Spaces——状态空间模型 (State Space Models, SSMs): 连续时间隐状态模型

这意味着通过反向传播,我们可以调整这些参数,使得模型在给定数据上的预测性能最优。通过上述步骤,可以有效地训练状态空间模型,使其能够处理各种时间序列数据,包括图像、音频、文本等领域的数据。假设我们有一个简单的控制系统,用于控制一个物体的运动。我们的目标是将SSM作为深度序列模型中的一个黑箱表示,其中矩阵。是直接传输矩阵,描述了输入信号对输出的直接影响。是输入矩阵,描述了输入信号对状态的影响。是状态矩阵,描述了状态之间的相互关系。是输出矩阵,描述了状态对输出的影响。是施加的力,输出信号。

2024-07-11 18:51:39 976

原创 Woodbury恒等式

Woodbury恒等式,又称为Woodbury矩阵恒等式或Sherman-Morrison-Woodbury公式,是线性代数中的一个重要结果。它提供了一种高效计算矩阵逆的方法,特别是在处理矩阵加上低秩更新的情况下。该恒等式在数值分析、统计学和机器学习中有广泛应用。Woodbury恒等式在处理矩阵加上低秩更新的逆运算时,非常高效且实用。它在许多应用场景中发挥了重要作用,如数值优化、机器学习中的高斯过程、贝叶斯统计等。

2024-07-11 15:43:36 527

原创 如何理解低秩校正和柯西核

柯西核(Cauchy Kernel)是一种数学函数,常用于处理特定类型的积分问题。它在数值分析、统计学和机器学习中具有广泛的应用。柯西核函数以其在近似和核方法中的有效性而闻名,特别是在简化复杂计算时。Kxy1x−yKxyx−y1​其中,xxx和yyy是变量。这个形式展示了柯西核在两个点之间的相互作用,通常用于处理具有奇异点的积分。

2024-07-11 15:08:17 859

原创 Efficiently Modeling Long Sequences with Structured State Spaces————Abstract

在序列建模中,一个核心目标是设计一个能够跨越多种模态和任务的统一模型,特别是在处理长距离依赖关系时。虽然传统模型如RNNs(递归神经网络)、CNNs(卷积神经网络)和Transformers都有专门的变种来捕捉长距离依赖关系,但它们在处理超过10000步的非常长序列时仍然面临挑战。x˙tAxtButytCxtDut研究表明,通过适当选择状态矩阵A,这个系统可以在数学上和经验上处理长距离依赖关系。然而,这种方法的计算和内存需求过高,作为一种通用的序列建模解决方案是不现实的。

2024-07-11 14:39:02 1014

原创 连续时间模型(Continuous-time)、循环神经网络(Recurrent),以及卷积神经网络(Convolutional)模型的工作机制及其特点。

连续时间模型适合处理连续和不规则采样的数据,常用于物理系统建模。循环神经网络擅长处理时间序列数据,能够捕捉序列中的依赖关系,适用于自然语言处理等领域。卷积神经网络则在图像处理和一些序列数据处理中表现出色,能够高效地提取局部特征并且易于并行化训练。

2024-07-10 10:01:03 1151

原创 状态空间模型(Structured Space Model)SSM

状态空间模型(Structured Space Model)## 1. **基本定义** - 源于现代控制系统理论。SSM是用于描述序列在各时间步的状态表示,并根据输入预测其下一个状态的模型。原始理论处理连续函数。 - 输入序列$x(t)$ - 隐状态表示$h(t)$ - 预测输出序列$y(t)$## 2. **公式表示** -$h'(t) = Ah(t) + Bx(t)$ -$y(t) = Ch(t) + Dx(t)$[公式详解文章链接](http

2024-07-09 19:00:52 675

原创 SSM核心公式解释(离散化过程)

通过这些离散化方法,可以将连续时间的状态空间模型转化为离散时间模型,使其适用于数字控制和离散时间信号处理。这些公式描述了状态空间模型(SSM)中的离散化过程,特别是使用零阶保持方法对连续时间系统进行离散化。相同,因为输出是状态的直接观测,离散化不改变这个关系。即,输出是状态的线性变换。通常与连续时间系统的输出矩阵。:离散化后的状态转移矩阵。:当前时刻的隐状态向量。:离散化后的输入矩阵。:离散化后的输入矩阵。通过离散化后的输入矩阵。:离散化后的输出矩阵。通过离散化后的输出矩阵。通过各自的离散化矩阵。

2024-07-09 16:22:15 1004

原创 SSM核心公式解释(状态更新与输出 方程)

状态更新方程h′tAhtBxth′tAhtBxt表示,状态hth(t)ht随时间的变化由自身状态和输入决定。输出方程ytChtDxtytChtDxt表示,输出yty(t)yt由当前状态和输入共同决定。这种模型能够捕捉系统在各个时间点的状态变化,并根据输入预测未来的状态和输出,是现代控制理论和动态系统分析中的重要工具。

2024-07-09 16:07:15 998

原创 扩散模型中采样过程(Sampling Process)的详细步骤和算法

扩散模型通过从标准正态分布采样初始噪声图像,并逐步去噪,最终生成高质量的图像。去噪过程中的关键在于噪声预测器的准确性和公式的合理性,确保每一步都能有效减少图像中的噪声,同时保持图像的结构和细节。

2024-07-09 11:07:01 798

原创 Stable Diffusion 的工作框架

Stable Diffusion 框架通过在潜在空间中进行扩散过程,从噪声逐步生成清晰的图像。该过程结合了条件信息、去噪网络和解码器等多种技术,实现了从文本、语义图等多种输入条件生成高质量图像的能力。这种方法在生成图像任务中具有较高的灵活性和优越的性能。

2024-07-09 10:42:15 543

原创 文本到图像生成模型(Text-to-Image Generator)

这张图展示了一个文本到图像生成模型的工作原理,重点在于生成图像后的去噪过程。通过噪声预测器和多步迭代的去噪操作,最终生成清晰且符合文本描述的图像。这种方法在扩散模型和最近的生成对抗网络(GANs)等技术中被广泛使用,以提高生成图像的质量和细节。

2024-07-09 10:22:46 274

原创 扩散模型(Diffusion Models)中的reverse process“(逆向过程)

在扩散模型(Diffusion Models)中,“reverse process”(逆向过程)是指从一个完全噪声化的样本逐步去噪,还原出原始数据的过程。这个过程通常在采样阶段进行。

2024-07-09 09:35:58 597

原创 Diffusion models 终极流程

这张图片展示了两个算法,分别是用于训练和采样的。

2024-07-09 09:08:24 666

原创 Denoising Diffusion Probabilistic Models——Background

扩散模型(Diffusion Models)的一个显著特点是它们的近似后验分布qx1T∣x0qx1T​∣x0​(称为前向过程或扩散过程)被固定为一个马尔可夫链,这个链根据方差计划β1βTβ1​βT​逐渐向数据中添加高斯噪声。前向过程通过逐步添加噪声将数据转换为噪声,而逆向过程则通过去噪将噪声转换回数据。这种对称性和闭式解的存在使得扩散模型在训练和采样时都非常高效。通过优化上述损失函数,可以有效训练扩散模型,使其在逐步去噪的过程中生成高质量的数据样本。

2024-07-08 19:13:13 859

原创 马尔可夫链

马尔可夫链(Markov Chain)是一种统计模型,描述了一个系统在不同状态之间的转移过程。该模型具有“无记忆性”性质,即系统未来的状态只依赖于当前状态,而与之前的状态无关。在扩散模型中,马尔可夫链用于定义从噪声到数据的逆过程。这个逆过程逐步去噪,最终生成逼真的数据样本。:所有可能状态的集合。

2024-07-08 11:13:55 907

原创 贝叶斯公式(Bayes‘ Theorem)and 贝叶斯算法(朴素贝叶斯分类器(Naive Bayes Classifier))

贝叶斯公式(Bayes’ Theorem)是概率论中的一个基本公式,用于计算一个事件在已知另一事件发生的条件下的概率。贝叶斯公式的基本思想是通过已有数据更新我们的信念或预测。PA∣BPBPB∣A⋅PA​这里,PA∣B表示在事件B已经发生的情况下事件A发生的条件概率。其他符号的解释如下:PA:事件A发生的先验概率(在未观察到事件B时对A发生的信念)。PB:事件B发生的边缘概率(所有可能情况下B发生的概率)。PB∣A:事件A。

2024-07-08 09:20:28 913

原创 扩散模型的添加噪声(前向过程)并逆向去噪(后向过程)

扩散模型的前向过程通过逐步添加噪声将数据转化为高斯分布,后向过程则通过去噪模型逆向还原数据。这两个过程的有效结合,使得扩散模型在图像生成等任务中表现出色。

2024-07-07 17:02:53 861

原创 扩散模型的核心公式

这个过程通过每一步的公式计算,实现了数据从原始分布到高斯分布的逐步转变。,直到数据完全被噪声覆盖。下面详细解释公式中每个部分的含义。通过这种逐步添加噪声的方法,扩散模型将数据。通过逐步添加噪声,我们可以看到数据从初始的。中,如何通过添加噪声来生成新的数据样本。转换为逐步更接近标准高斯分布的数据。这个公式描述了在每一步。逐渐转变为被噪声覆盖的。

2024-07-07 15:07:23 618

原创 Autoformer时间序列分解(Time series decomposition)

时间序列分解模块在提高预测模型的性能方面至关重要。通过逐步聚合和优化时间序列中的趋势-周期部分,分解模块不仅提高了模型对长期趋势的捕捉能力,还增强了对季节性变化的识别。图4的对比验证了渐进分解架构的必要性和有效性。图4展示了时间序列分解模块在不同情况下对预测模型的影响。通过比较没有分解模块、一个分解模块、两个分解模块和三个分解模块的效果,我们可以看到分解模块在捕捉趋势和季节性部分中的重要性。

2024-07-06 19:13:01 352

原创 Auto-Correlation 的超参数 c

超参数c在 Auto-Correlation 机制中用于控制选择最相关时间延迟的数量,以在性能和计算效率之间取得平衡。通过调整ccc的取值,可以选择合适的延迟数量来提高模型的预测精度和计算效率。

2024-07-06 17:12:44 521

原创 Autoformer的实现细节

批量大小设置为 32,训练过程在 10 个 epoch 内早停。所有实验重复三次,使用 PyTorch 实现,并在单个 NVIDIA TITAN RTX 24GB GPU 上进行。我们的方法采用 L2 损失函数进行训练,使用 ADAM 优化器,初始学习率为。通过这些实现细节和实验设置,确保了我们方法的有效性和结果的可靠性。

2024-07-06 17:10:50 606

原创 L2损失函数

L2损失函数是一种常用的损失函数,尤其适用于回归任务。它通过平方误差来衡量预测值与真实值之间的差异,并且对较大的误差进行更强的惩罚,确保模型能够更准确地拟合数据。

2024-07-06 17:06:00 437

原创 多变量预测结果及不同预测长度分析

在时间序列预测中,选择适当的输入长度和预测长度对模型的性能有显著影响。短期预测通常比长期预测更准确,因为模型在捕捉长时间依赖性和趋势变化时更具挑战性。通过比较不同预测长度下的 MSE 和 MAE,我们可以评估模型在短期和长期预测中的表现,并选择最合适的模型参数以实现最佳预测效果。在时间序列预测中,我们通常会考虑不同的预测长度,以评估模型在短期和长期预测中的表现。这里,我们以多变量时间序列预测为例,预测长度。假设我们有一个多变量时间序列模型,并且我们对 ILI 数据集和其他数据集进行了预测。

2024-07-06 16:55:49 830

原创 Auto-Correlation vs. self-attention family

自动相关机制与自注意力机制在处理时间序列数据时有着显著的不同。图3展示了两者的区别。自动相关机制通过对子序列之间的关系进行建模和聚合,能够有效利用时间序列的周期性特征,提高计算效率和信息利用效率。而自注意力机制主要关注点对点的关系,适用于捕捉局部依赖性,但在处理周期性数据时效率较低。

2024-07-06 13:07:57 721

原创 Autoformer的高效计算

通过使用快速傅里叶变换(FFT),我们能够高效地计算自相关函数,并且通过选择最可能的延迟时间和聚合多个子序列,显著减少了计算复杂度。这样的方法不仅提高了计算效率,还能更好地捕捉时间序列中的周期性结构。

2024-07-06 13:03:22 553

原创 Wiener-Khinchin 定理

Wiener-Khinchin 定理是一个重要的信号处理和时间序列分析的数学定理,它将一个随机过程的自相关函数与其功率谱密度联系起来。这个定理表明,对于一个平稳随机过程,其自相关函数的傅里叶变换等于其功率谱密度。

2024-07-06 13:01:34 828

原创 Autoformer之时间延迟聚合

此操作可以对齐处于相同周期相位位置的相似子序列,这与自注意力机制中的点对点积聚合不同。最后,我们通过 softmax 归一化置信度来聚合子序列。综上所述,时间延迟聚合块通过选择最佳滞后时间来对齐和聚合时间序列中的相似子序列,从而可以在时间序列分析中更好地捕捉到数据的周期性结构。基于周期的依赖性连接了估计周期中的子序列。我们提出了时间延迟聚合模块(见图2),可以基于选定的时间延迟。,假设我们计算出的前 3 个最大的自相关值的时间延迟分别是。,然后计算 softmax 归一化后的值。通过投影器,我们得到查询。

2024-07-06 12:47:44 1003

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除