six.学长
码龄4年
关注
提问 私信
  • 博客:177,232
    社区:1
    177,233
    总访问量
  • 200
    原创
  • 10,601
    排名
  • 2,052
    粉丝
  • 0
    铁粉
  • 学习成就

个人简介:爱科研的小逯

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:山东省
  • 加入CSDN时间: 2020-09-28
博客简介:

m0_51200050的博客

查看详细资料
  • 原力等级
    成就
    当前等级
    4
    当前总分
    802
    当月
    34
个人成就
  • 获得2,900次点赞
  • 内容获得11次评论
  • 获得2,626次收藏
  • 代码片获得257次分享
创作历程
  • 200篇
    2024年
成就勋章
TA的专栏
  • 机器翻译
    1篇
  • Samformer
    3篇
  • 深度学习
    63篇
  • Dimab
    3篇
  • Mambaformer
    5篇
  • Mamba
    11篇
  • Transformer
    15篇
  • 状态空间模型论文
    11篇
  • 机器学习
    31篇
  • 扩散模型
    11篇
  • autoformer
    29篇
  • 时间序列
    9篇
  • GAN
    5篇
  • DeBERTa
    16篇
  • 梯度下降
    7篇
  • 位置编码
    1篇
  • informer
    39篇
  • informer详细流程
    5篇
  • informer证明
    2篇
  • 环境搭建
    1篇
  • 激活函数
    1篇
兴趣领域 设置
  • Python
    pythonscikit-learnnumpypandaspipconda
  • 人工智能
    机器学习人工智能深度学习神经网络生成对抗网络pytorchtransformer分类回归chatgpt
创作活动更多

AI大模型如何赋能电商行业,引领变革?

如何使用AI技术实现购物推荐、会员分类、商品定价等方面的创新应用?如何运用AI技术提高电商平台的销售效率和用户体验呢?欢迎分享您的看法

175人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

机器翻译之Irish-based Large Language Model with Extreme Low-Resource Settings in Machine Translation

NMT专注于翻译,通过神经网络将源语言文本转换为目标语言文本,适用于各种语言对翻译,但对低资源语言的支持有限。LLMs是通用的语言模型,支持更广泛的NLP任务,包括翻译、问答、文本生成等,具备良好的语言理解能力,但对低资源语言支持仍有待改进。两者结合在一起时,可以利用LLMs的语言理解能力来改进NMT在低资源语言中的表现,提升模型在多语言任务中的适用性。我们的框架采用了两阶段训练过程动态持续预训练在这个阶段中,我们并非对LLM的所有层都进行训练,而是根据模型层的语言能力来选择性地训练特定层。
原创
发布博客 2024.10.04 ·
869 阅读 ·
23 点赞 ·
0 评论 ·
22 收藏

SAMformer————3. Experiments(未完...)

通过这一段的描述,作者成功地展示了SAMformer在多变量长期时间序列预测任务中的优势。与当前最先进的模型相比,SAMformer不仅在预测精度上有显著提升,而且在参数量上也大幅减少,使得模型更为高效。这些实验结果进一步证明了SAMformer的设计选择(如通道级注意力和SAM优化)的有效性,并为其在实际应用中的潜力提供了有力的支持。使用的数据集作者在实验中使用了8个公开的真实世界多变量时间序列数据集,这些数据集常用于长期预测任务。
原创
发布博客 2024.09.01 ·
1045 阅读 ·
24 点赞 ·
1 评论 ·
10 收藏

SAMformer——2.Proposed Approach

这一框架的核心是通过训练一个由参数ω\omegaω决定的函数(或模型)来预测多变量时间序列的未来值。在训练过程中,通过最小化均方误差,模型学习如何从历史数据中提取有用的信息,从而进行准确的预测。作者希望设计一个高效的Transformer模型来解决生成模型的问题。应用注意力机制:直接对输入矩阵XXX应用注意力机制(Attention)。残差连接:将输入矩阵XXX添加到注意力机制的输出中,形成一个残差连接(Residual Connection)。线性层输出。
原创
发布博客 2024.08.30 ·
574 阅读 ·
7 点赞 ·
0 评论 ·
16 收藏

论文符号含义

通过这些符号约定和定义,我们能够更加精确地表示和处理数学和机器学习中的矩阵和向量操作。(scalar values):使用普通的字母表示,例如参数 λ 表示一个标量值。,表示大小为 n×n 的单位矩阵,其对角线元素为 1,其他元素为 0。的 Frobenius 范数,即矩阵中所有元素的平方和的平方根。(matrices):使用加粗的大写字母表示,例如矩阵。(vectors):使用加粗的小写字母表示,例如向量。的秩,即矩阵中线性无关的行或列的最大数目。(Frobenius norm):记作 ∥。
原创
发布博客 2024.08.11 ·
886 阅读 ·
11 点赞 ·
0 评论 ·
21 收藏

T5 模型详解

T5 模型在 Dimba 模型中扮演了关键角色,通过将输入文本描述转化为特征向量,为图像生成过程提供了丰富的语义信息。T5 模型的文本到文本框架、基于 Transformer 的架构,以及预训练与微调的结合,使其在处理多种 NLP 任务时具有高度的灵活性和强大的性能。
原创
发布博客 2024.07.26 ·
1071 阅读 ·
4 点赞 ·
0 评论 ·
7 收藏

Dimba: Transformer-Mamba Diffusion Models————3 Methodology

文本处理:输入的文本描述通过 T5 模型提取特征,生成文本特征向量。图像处理:输入图像通过 VAE 编码器转换为潜在表示,并添加噪声。时间步信息:时间步信息通过共享的 MLP 投影,并插入到自适应归一化层中。Dimba 块前馈网络层对输入特征进行非线性变换。双向 Mamba 层处理特征,减少内存使用,提高计算效率。交叉注意力模块将文本特征与图像特征整合,增强语义一致性。自注意力模块捕捉全局依赖关系,增强特征表达能力。输出:经过多个 Dimba 块的处理,生成最终的高质量图像。
原创
发布博客 2024.07.26 ·
1165 阅读 ·
10 点赞 ·
0 评论 ·
22 收藏

Dimba: Transformer-Mamba Diffusion Models————Abstract

Dimba 是一种全新的文本到图像扩散模型,采用独特的混合架构,结合了 Transformer 和 Mamba 元素。具体来说,Dimba 通过交替堆叠 Transformer 层和 Mamba 层来构建模型,并通过交叉注意力层整合条件信息,从而充分利用这两种架构的优势。我们探讨了多种优化策略,包括质量调优、分辨率适应,并确定了大规模图像生成所需的关键配置。
原创
发布博客 2024.07.25 ·
451 阅读 ·
4 点赞 ·
0 评论 ·
3 收藏

Mambaformer家族、Mamba和Transformer的结构(忽略残差连接和层归一化)

图2展示了Mambaformer家族、Mamba和Transformer的结构。为了说明,我们忽略了图中Mamba层、注意力层和前馈层相关的残差连接和层归一化。
原创
发布博客 2024.07.25 ·
618 阅读 ·
9 点赞 ·
0 评论 ·
5 收藏

mamba是如何处理内在序列顺序的

Mamba模型通过其核心机制,特别是状态空间模型(SSM)和卷积操作,内在地处理序列顺序信息。
原创
发布博客 2024.07.25 ·
912 阅读 ·
12 点赞 ·
0 评论 ·
14 收藏

Integrating Mamba and Transformer for Long-Short Range Time Series Forecasting————4 METHODOLOG

Mambaformer模型通过结合Mamba块和多头注意力机制,利用状态空间建模和注意力机制捕捉时间序列数据中的长短期依赖关系。这种架构允许高效处理和预测,融合了Mamba和Transformer模型的优势。受混合架构在语言建模中优势的启发【23】,我们提出利用Mambaformer来整合Mamba和Transformer,以捕捉时间序列数据中的长短期依赖,从而提升性能。Mambaformer采用类似GPT系列【5, 25, 26】的仅解码器(decoder-only)架构。
原创
发布博客 2024.07.25 ·
938 阅读 ·
14 点赞 ·
0 评论 ·
31 收藏

Integrating Mamba and Transformer for Long-Short Range Time Series Forecasting———PRELIMINARIES

相比传统的RNN和LSTM,SSM具有更好的计算效率,特别是在长时间序列中。例如,知道某天是周末还是工作日、某个时间点是白天还是晚上,可以帮助模型更好地预测某些类型的数据,如交通流量或能源消耗。这个卷积过程允许在一次计算中考虑到多个时间步的输入对输出的影响,从而实现更高效的计算。步,以包含最新的数据。这种方法确保了模型始终使用最新的信息进行预测,有助于应对时间序列中的变化趋势。的未来值,这要求模型能够捕捉和理解数据中的趋势和模式,从而提供精确的预测。个时间步的信息,并且根据这些新的数据进行下一步的预测。
原创
发布博客 2024.07.25 ·
1094 阅读 ·
9 点赞 ·
0 评论 ·
19 收藏

从 S4 到 S6 的转换过程

通过这个具体的例子,我们展示了从 S4 模型到 S6 模型的转换过程。S6 模型通过为每个批次和序列位置提供独特的B\mathbf{B}BC\mathbf{C}C和Δ\DeltaΔ参数,从而允许更加灵活和精细的处理。这种方法能够更好地适应输入数据的变化,提高模型的性能和表达能力。
原创
发布博客 2024.07.24 ·
1210 阅读 ·
28 点赞 ·
0 评论 ·
22 收藏

在状态空间模型(SSM)中,详细的计算步骤和矩阵乘法示例

通过这个具体的例子,我们展示了如何进行矩阵乘法以计算状态更新和输出。在状态空间模型中,A\mathbf{A}A和B\mathbf{B}B用于状态更新,而C\mathbf{C}C用于计算输出。每个时间步的输入xtxt与B\mathbf{B}B相乘,加上前一个时间步的状态htht与A\mathbf{A}A相乘,得到新的状态ht1ht1。最终,通过与C\mathbf{C}C相乘,得到输出ytyt。
原创
发布博客 2024.07.24 ·
1164 阅读 ·
21 点赞 ·
0 评论 ·
11 收藏

Integrating Mamba and Transformer for Long-Short Range Time Series Forecasting——ABSTRACT

在这篇论文中,我们提出了一种混合框架Mambaformer,它内部结合了Mamba用于长程依赖关系和Transformer用于短程依赖关系,以进行长短程时间序列预测。通过将Mamba用于捕捉季节性变化(长程依赖)和Transformer用于捕捉每天的天气模式(短程依赖),Mambaformer可以更准确地预测未来的天气。同样,在股市预测中,Mamba可以捕捉到市场的长期趋势,而Transformer则可以捕捉到日常的市场波动,从而更好地预测股票价格。
原创
发布博客 2024.07.23 ·
253 阅读 ·
2 点赞 ·
0 评论 ·
0 收藏

结构化状态空间序列模型(S4)的图示解释

在选择性状态空间模型中,状态转移矩阵AAA、输入矩阵BtB_tBt​、输出矩阵CtC_tCt​和离散化参数Δt\Delta_tΔt​共同作用,决定了系统的动态行为和输入输出关系。通过动态调整这些参数,模型能够高效地处理长序列数据,适应不同的输入特性,提高计算效率和预测准确性。3. 输入选择机制(Selection Mechanism)Project:这个部分负责将输入映射到适合状态空间模型处理的高维空间。:这是一个选择机制,根据当前输入动态调整状态空间模型的参数(如B。
原创
发布博客 2024.07.15 ·
1171 阅读 ·
17 点赞 ·
0 评论 ·
21 收藏

实验证实Mamba的潜力

通过在合成任务、音频和基因组学建模以及语言建模上的实验验证,Mamba展示了其作为通用序列基础模型的巨大潜力。它不仅在多个模态和任务上表现出色,还具备处理长上下文数据的能力,显著提高了训练和推理效率。Mamba的线性时间复杂度和高效性使其在实际应用中具有广泛的前景。
原创
发布博客 2024.07.14 ·
432 阅读 ·
3 点赞 ·
0 评论 ·
9 收藏

MLP是多层感知机(Multi-Layer Perceptron)

在Transformer模型中,MLP块用于在自注意力机制之后进一步处理信息。它通过两个线性变换和一个非线性激活函数实现对输入向量的非线性变换和处理,从而增强模型的表达能力。通过这种结构,Transformer能够在捕捉序列中不同位置之间的依赖关系的同时,有效处理和表示复杂的输入数据。
原创
发布博客 2024.07.14 ·
1275 阅读 ·
17 点赞 ·
0 评论 ·
19 收藏

Mamba: Linear-Time Sequence Modeling with Selective State Spaces——Introduction 2

Mamba架构利用SSMs和MLP块的优势,创建了一个简单、高效且强大的序列模型。通过结合选择性状态空间,模型能够动态调整输入数据的重要性,从而在各种任务中表现更好。选择性SSMs和Mamba架构通过结合高质量性能、快速训练和推理以及处理长上下文的能力,成为通用基础模型在序列上运行的理想选择。这些特性使其在语言处理、基因组学等多个领域表现出色,处理长序列数据时具有显著优势。
原创
发布博客 2024.07.13 ·
720 阅读 ·
9 点赞 ·
0 评论 ·
15 收藏

Mamba: Linear-Time Sequence Modeling with Selective State Spaces——Introduction 1

首先,我们识别了先前模型的一个关键限制:在输入依赖的情况下有效选择数据的能力(即,关注或忽略特定输入)。基于选择性复制和归纳头等重要的合成任务的直觉,我们通过基于输入参数化SSM参数,设计了一个简单的选择机制。这使得模型能够过滤掉不相关的信息,并无限期地记住相关信息。
原创
发布博客 2024.07.13 ·
692 阅读 ·
17 点赞 ·
0 评论 ·
7 收藏

Abstract

然而,Transformer在处理长序列时的计算效率问题,促使研究人员开发了许多子二次时间复杂度的架构,如线性注意力、门控卷积和递归模型,以及结构化状态空间模型(SSMs)。尽管这些模型在计算效率上有所改进,但在语言等重要模态上的性能却不如传统的注意力机制。:通过让SSM参数成为输入的函数,解决了这些模型在离散模态(如语言)上的不足。:尽管这种改进阻止了使用高效的卷积运算,研究人员设计了一种在递归模式下的硬件感知并行算法,提升了计算效率。研究人员发现,这些模型在内容为基础的推理能力上存在关键弱点。
原创
发布博客 2024.07.13 ·
325 阅读 ·
2 点赞 ·
0 评论 ·
2 收藏
加载更多