Transformer专栏
文章平均质量分 93
关于Transformer的一系列文章。
双木的木
种一棵树最好的时间是十年前,其次是现在。
展开
-
集智书童 | DuoDiff: 提升浅层 Transformer 性能的扩散模型, 双 Backbone 件扩散模型在图像处理中的应用 !
扩散模型[21]在各种模态的生成任务上近期展现了令人印象深刻的表现,包括图像[6; 3],视频[7; 8],音频[12],以及分子[9]。然而,使用扩散模型生成新样本的过程可能较慢,因为需要多次调用去噪网络[25]。为了提高采样效率[26],一些最具前景的方法关注于减少采样步骤(例如,DDIM[22]和基于蒸馏的方法[19; 15])或改变采样空间(例如,潜在扩散[18])。原创 2024-11-08 17:20:07 · 1047 阅读 · 0 评论 -
kaggle竞赛宝典 | 高维多变量下的Transformer时序预测建模方法
今天给大家介绍一篇CIKM 2024中的时间序列预测工作,这篇文章针对高维多变量时序预测问题,提出了一种基于Transformer的建模方法。原创 2024-11-08 17:07:58 · 553 阅读 · 0 评论 -
计算机视觉研究院 | 性能&耗时完爆YOLOv11,RT-DETRv3真正的实时端到端目标检测算法
RT-DETR是第一个基于实时端到端Transformer的目标检测器。其效率来源于框架设计和Hungarian matching。然而与YOLO系列等密集的监督检测器相比,Hungarian matching提供了更稀疏的监督,导致模型训练不足,难以达到最佳结果。原创 2024-11-01 15:05:49 · 940 阅读 · 0 评论 -
OpenMMLab | S4模型详解:应对长序列建模的有效方法
序列建模的一个核心问题在于长距离依赖关系 (long-range dependencies, LRD)。一个有潜力的方法是模拟状态空间模型 (state space model, SSM),它从理论和实践上被验证,当选取一些特殊参数时(参考 HiPPO),可以处理 LRD,然而有着极高的计算与内存要求。这篇论文基于 SSM 的新参数化提出 Structured State Space sequence model (S4),并证明了它可以在保留理论优势的同时大幅降低时间、空间复杂度。原创 2024-10-22 17:20:13 · 427 阅读 · 0 评论 -
江大白 | 通用视觉Backbone,TransXNet:全局+局部动态=性能强大(附源码及源码)
香港大学俞益洲教授团队开发了通用视觉主干网络TransXNet,引入了D-Mixer模块,专注捕捉全局与局部动态性。经实验验证,TransXNet在ImageNet-1K、COCO 2017等数据集上均展现出卓越的性能。本篇分享论文TransXNet: Learning both global and local dynamics with a dual dynamic token mixer for visual recognition,通用的视觉Backbone,TransXNet: 全局动态性+局原创 2024-10-22 17:12:07 · 797 阅读 · 0 评论 -
机器学习算法那些事 | 逐模块解析transformer结构
transformer是一种编解码(encoder-decoer)结构,用于自然语言处理、计算机视觉等领域,编解码结构是当前大模型必包含的部分。原创 2024-10-11 17:07:40 · 822 阅读 · 0 评论 -
CV技术指南 | 「乘法变加法」!MIT清华校友全新方法优化Transformer:Addition is All You Need
Transformer计算,竟然直接优化到乘法运算了。MIT两位华人学者近期发表的一篇论文提出:Addition is All You Need,让LLM的能耗最高降低95%。原创 2024-10-10 09:50:30 · 1046 阅读 · 0 评论 -
算法进阶 | 深度解析Transformer、RNN和Mamba的联系!
本文深入探讨了Transformer、循环神经网络(RNN)和状态空间模型(SSM)之间的潜在联系。文章首通过这些分析,展示了看似不同的模型架构之间存在深层联系,为未来模型设计和跨架构思想交流提供了新的视角和可能性。原创 2024-09-26 15:04:23 · 1099 阅读 · 0 评论 -
集智书童 | 从 Mamba 到 RWKV-SAM | 速度提高2倍,分类和语义分割都优于 Mamba 模型 !
基于Transformer的分割方法在处理高分辨率图像时面临着有效推理的挑战。最近,一些线性注意力架构,如Mamba和RWKV,因其能够高效处理长序列而受到广泛关注。在这项工作中,作者通过探索这些不同的架构来设计一个高效的“分割任何物体”模型。具体来说,作者设计了一个混合骨架,包含卷积和RWKV操作,它在准确性和效率上都取得了最佳效果。原创 2024-09-24 17:52:39 · 946 阅读 · 0 评论 -
极市平台 | 首个Mamba+Transformer混合架构多模态大模型来了,实现单卡千图推理
LongLLaVA(长上下文大型语言和视觉助手)这一创新性混合架构模型,在长上下文多模态理解方面表现出色。该模型集成了 Mamba 和 Transformer 模块,利用多个图像之间的时空依赖性构建数据,并采用渐进式训练策略。原创 2024-09-22 17:34:04 · 1236 阅读 · 0 评论 -
机器之心 | 一文看懂Mamba,Transformer最强竞争者
Mamba 虽然已经在一些领域取得了出色表现,但总体而言,Mamba 研究仍还处于起步阶段,前方仍还有一些挑战有待克服。当然,这些挑战同时也是机遇。原创 2024-09-15 21:54:26 · 1249 阅读 · 0 评论 -
Coggle数据科学 | 科大讯飞AI大赛:人岗匹配挑战赛 赛季3
讯飞智聘是一款面向企业招聘全流程的智能化解决方案。运用科大讯飞先进的智能语音、自然语言理解、计算机视觉等AI技术及大数据能力,具备业界领先的简历解析、人岗匹配、AI面试、AI外呼等产品功能,助力企业提升招聘效率,降低招聘成本。人岗匹配是企业招聘面临一个重大挑战,尤其在校园招聘等集中招聘的场景下,面对海量的简历,如何快速分类筛选出最适合招聘岗位的简历,以及在内推和猎头场景下,如何为一份简历找到合适的岗位,做到人适其岗、岗适其人,提升人岗匹配的效率和准确度,是困扰每一个HR和面试官的难题。原创 2024-09-14 22:48:53 · 1214 阅读 · 1 评论 -
量子位 | 新架构Mamba更新二代!作者:别争了,数学上Transformer和SSM是一回事
Transformer挑战者、新架构Mamba,刚刚更新了第二代:Mamba-2,状态空间扩大8倍,训练速度提高50%!更重要的是,团队研究发现原来Transformer和状态空间模型(SSM)竟然是近亲??原创 2024-09-12 17:40:54 · 941 阅读 · 0 评论 -
深度学习爱好者 | 知识蒸馏:如何用一个神经网络训练另一个神经网络
知识蒸馏是压缩神经网络的三种主要方法之一,使其适合于性能较弱的硬件。与其他两种强大的压缩方法权值剪枝和量化不同,知识蒸馏不直接对网络进行缩减。相反,它使用最初的模型来训练一个更小的模型,称为“学生模型”。由于教师模型甚至可以对未标记的数据提供预测,因此学生模型可以学习如何像教师那样进行泛化。在这里,我们看到了两个关键的结果:最初的论文,它介绍了这个想法,和一个后续的论文,展示了简单的模型,如决策树,也可以用作学生模型。原创 2024-09-10 16:44:16 · 913 阅读 · 0 评论 -
机器之心 | 挑战Transformer的Mamba是什么来头?作者博士论文理清SSM进化路径
在大模型领域,Transformer 凭一己之力撑起了整个江山。但随着模型规模的扩展和需要处理的序列不断变长,Transformer 的局限性也逐渐凸显,比如其自注意力机制的计算量会随着上下文长度的增加呈平方级增长。为了克服这些缺陷,研究者们开发出了很多注意力机制的高效变体,但收效甚微。原创 2024-09-08 17:38:22 · 880 阅读 · 0 评论 -
kaggle竞赛宝典 | Mamba模型综述!
更具体地说,作为最成功的SSM变体之一,Mamba在保持与序列长度成线性扩展性的同时,达到了与Transformers相当的建模能力 [55],因此成为焦点话题。因此,在本综述中,我们从多个角度对Mamba进行了全面回顾,以为新人提供对Mamba内在工作原理的基础理解,同时帮助有经验的从业者跟上其最新的发展。具体而言,本综述的其余部分组织如下:第2节,我们回顾了各种具有代表性的深度神经网络的背景知识,包括RNNs、Transformers和状态空间模型,而第3节介绍了Mamba的详细内容。原创 2024-09-07 21:23:12 · 1058 阅读 · 0 评论 -
算法进阶 | 必知!5大深度生成模型!
深度生成模型是一类强大的机器学习工具,它可以从输入数据学习其潜在的分布,进而生成与训练数据相似的新的样本数据,它在计算机视觉、密度估计、自然语言和语音识别等领域得到成功应用, 并给无监督学习提供了良好的范式。原创 2024-09-06 17:59:49 · 1114 阅读 · 0 评论 -
机器之心 | 预训练无需注意力,扩展到4096个token不成问题,与BERT相当
本文提出了双向门控 SSM(BiGS)模型,结合基于状态空间模型(SSM)的 Routing 层和基于乘法门的模型架构,在不使用注意力的情况下能够复制 BERT 预训练结果,并可扩展到 4096 个 token 的长程预训练,不需要近似。原创 2024-09-05 20:58:06 · 962 阅读 · 0 评论 -
数据分析 | 推荐 :构建大型语言模型应用:一份详细的指南(附链接)
软件工程师可能会更容易过渡到 LLM 工程师的角色,因为与传统的数据科学工作相比,LLM 的实验过程更偏“工程化”,而没有那么强的“科学研究”属性。LLM 原生应用的开发是一个不断迭代的过程,它会涵盖越来越多的用例和功能,也会面临各种各样的挑战,而我们也需要不断探索,力求打造更加完善的 LLM 原生产品。虽然构建“酷炫的演示应用程序”很容易,但从“酷炫的演示”到真正落地且切实可行的解决方案之间,你需要通过大量的实验并且拥有敏捷的反应才可能实现。我的理论是,它减少了不相关的标记,并且表现得更像自然语言。原创 2024-09-04 17:32:47 · 859 阅读 · 0 评论 -
机器之心 | 丢掉注意力的扩散模型:Mamba带火的SSM被苹果、康奈尔盯上了
为了用更少的算力让扩散模型生成高分辨率图像,注意力机制可以不要,这是康奈尔大学和苹果的一项最新研究所给出的结论。原创 2024-09-03 17:47:07 · 1053 阅读 · 0 评论 -
机器之心 | 五倍吞吐量,性能全面包围Transformer:新架构Mamba引爆AI圈
Albert Gu 表示,这项研究的一个重要创新是引入了一个名为「选择性 SSM」的架构,该架构是 Albert Gu 此前主导研发的 S4 架构(Structured State Spaces for Sequence Modeling ,用于序列建模的结构化状态空间)的一个简单泛化,可以有选择地决定关注还是忽略传入的输入。研究者将先前的 SSM 架构设计与 Transformer 的 MLP 块合并为一个块,从而简化了深度序列模型架构,形成了一种包含选择性状态空间的简单、同质的架构设计(Mamba)。原创 2024-08-30 20:25:21 · 1535 阅读 · 0 评论 -
算法进阶 | 深度学习知识蒸馏的研究综述(建议收藏!)
常用的模型压缩方法有4种:知识蒸馏(Knowledge Distillation,KD)、 轻量化模型架构、 剪枝(Pruning)、 量化(Quantization)。知识蒸馏是一种在深度学习中用于模型压缩和知识传递的技术。它通过将大型复杂模型(教师模型)的知识转移给小型简单模型(学生模型),从而优化学生模型的性能。原创 2024-08-29 17:39:27 · 2333 阅读 · 0 评论 -
深度学习与NLP | 非Transformer时代到来!全新无注意力模式超越Llama传奇
Mamba架构模型这次终于要「站」起来了?自 2023 年 12 月首次推出以来,Mamba 便成为了 Transformer 的强有力竞争对手。原创 2024-08-21 17:38:14 · 505 阅读 · 0 评论 -
计算机视觉研究院 | Transformer王者归来!无需修改任何模块,时序预测全面领先
作者受多维时间序列的本身的数据特性启发,反思了现有Transformer在建模时序数据的问题,提出了一个通用的时序预测框架iTransformer。iTransformer框架创新地引入倒置的视角观察时间序列,使得Transformer模块各司其职,针对性完成时序数据两个维度的建模难题,展现出优秀的性能和通用性。面对Transformer在时序预测领域是否有效的质疑,作者的这一发现可能启发后续相关研究,使Transformer重新回到时间序列预测的主流位置,为时序数据领域的基础模型研究提供新的思路。原创 2024-07-25 19:56:06 · 1275 阅读 · 0 评论 -
Coggle数据科学 | Kaggle干货:自定义transformers数据集
transformers是现在NLP同学必备的库,但在使用的过程中主要的代码是需要自定义数据集,那么如何舒服的读取数据,并使用transformers进行训练模型呢?原创 2024-07-24 17:45:20 · 1074 阅读 · 0 评论 -
江大白 | 视觉Transformer与Mamba的创新改进,完美融合(附论文及源码)
在本文中,作者引入了MambaVision,这是首个专门为视觉应用设计的Mamba-Transformer混合骨架。作者提出了重新设计Mamba公式的方法,以增强全局上下文表示的学习能力,并进行了混合设计集成模式的综合研究。原创 2024-07-17 17:57:00 · 2689 阅读 · 1 评论 -
程序员学长 | 快速学习一个算法,GAN
GAN 由两个部分组成:生成器(Generator)和判别器(Discriminator)。这两个部分通过一种对抗的过程来相互改进和优化。原创 2024-07-11 22:04:40 · 833 阅读 · 0 评论 -
AI生成未来 | 大语言模型的前世今生:万字长文完整梳理所有里程碑式大语言模型(LLMs)
本篇博客全面汇总了大型语言模型(LLMs)。从早期的预训练神经语言模型开始,探讨了它们的起源和发展。重点讨论了Transformer架构及其三个主要分类:仅编码器PLMs、仅解码器PLM和编码器-解码器PLM。接着,文章聚焦于GPT、LLaMA和PaLM这三大LLM家族,阐述了它们的特点和对语言模型领域的贡献。此外,还涉及了其他重要的LLMs,展现了该领域的广泛性和多样性。这篇博客不仅是对LLMs历史和模型做了完整的梳理,也突出了它们在自然语言处理技术发展中的关键角色。原创 2024-07-08 17:56:40 · 1348 阅读 · 0 评论 -
程序员学长 | 快速学会一个算法,xLSTM
今天给大家分享一个超强的算法模型,,xLSTM。xLSTM(Extended Long Short-Term)是对传统 LSTM(Long Short-Term Memory)模型的扩展和改进,旨在提升其在处理时间序列数据和序列预测任务中的性能。传统的 LSTM 模型通过引入遗忘门、输入门和输出门,解决了标准 RNN(Recurrent Neural Network)在长序列数据中存在的梯度消失和梯度爆炸问题。然而,LSTM 仍然存在一些局限性,尤其是在处理非常长的序列或需要更高维度特征提取时。原创 2024-07-07 19:58:42 · 1089 阅读 · 0 评论 -
集智书童 | 英伟达和斯坦福基于 Transformer 的异常检测最新研究!
在本文中,作者提出了一种名为MDP的新颖剪枝框架,它将通道、层和块剪枝整合到一个统一的优化过程中,并开发了一种精确的延迟建模技术,捕捉输入和输出通道的同时变化。为了融合这些策略,作者将剪枝重新定义为混合整数非线性规划(MINLP),以在单次传递中高效地识别在特定延迟预算内的最优剪枝结构。原创 2024-07-06 20:41:02 · 877 阅读 · 0 评论 -
程序员学长 | 当 LSTM 遇上 Attention
本文来源公众号,仅用于学术分享,侵权删,干货满满。今天我们一起来聊一下深度学习中的注意力(Attention)机制注意力机制是深度学习中引入的一种技术,特别适用于通过引入注意力机制,Seq2Seq 模型能够在解码每个时间步时,动态地选择和关注输入序列中的不同部分,从而更好地捕捉输入序列的全局信息。在讨论注意力机制之前,我们先来了解一下 Seq2Seq 模型。原创 2024-07-03 18:57:56 · 1415 阅读 · 0 评论 -
计算机视觉研究院 | YotoR:融合 Swin Transformer 和YoloR 的混合架构,提升目标检测性能
Transformers是自然语言处理领域的一项革命性技术,它也对计算机视觉产生了重大影响,有可能提高准确性和计算效率。YotoR将坚固的Swin Transformer主干与YoloR颈部和头部相结合。在实验中,YotoR模型TP5和BP4在各种评估中始终优于YoloR P6和Swin Transformers,比Swin Transformer模型提供了改进的目标检测性能和更快的推理速度。这些结果突出了进一步的模型组合和改进Transformer实时目标检测的潜力。原创 2024-07-02 20:15:06 · 799 阅读 · 0 评论 -
程序员学长 | 快速学会一个算法模型,LSTM
LSTM(Long Short-Term Memory)是一种特殊类型的循环神经网络(RNN),专门设计用来解决传统 RNN 在处理序列数据时面临的长期依赖问题。LSTM 的关键特征是其维持细胞状态的能力,细胞状态充当可以存储长序列信息的记忆单元。这使得 LSTM 能够随着时间的推移选择性地记住或忘记信息,使它们非常适合上下文和远程依赖性至关重要的任务。原创 2024-06-29 17:15:20 · 425 阅读 · 0 评论 -
计算机视觉研究院 | EfficientViT:让ViT更高效部署实现实时推理(附源码)
研究者提出了一个名为EfficientViT的高速Vision transformers家族。我们发现,现有transformer模型的速度通常受到内存低效操作的限制,特别是MHSA中的张量整形和逐元函数。因此,研究者设计了一种具有三明治布局的新构建块,即在有效的FFN层之间使用单个存储器绑定的MHSA,这在增强信道通信的同时提高了存储器效率。原创 2024-06-28 17:38:04 · 1036 阅读 · 0 评论 -
程序员学长 | 快速学会一个算法,Transformer(下)
上篇文章我们已经介绍了编码器中的大部分概念,也基本知道了编码器的原理。现在让我们来看下, 编码器和解码器是如何协同工作的。编码器一般有多层,第一个编码器的输入是一个序列文本,最后一个编码器输出是一组序列向量,这组序列向量会作为解码器的 K、V 输入,其中 K=V=解码器输出的序列向量表示。这些注意力向量将会输入到每个解码器的 Encoder-Decoder Attention 层,这有助于解码器把注意力集中到输入序列的合适位置,如下图所示。原创 2024-06-24 19:24:17 · 1001 阅读 · 0 评论 -
程序员学长 | 快速学会一个算法,Transformer(上)
今天给大家分享一个超强的算法模型,Transformer。我们会分两篇文章进行讲解。Transformer 模型是深度学习中一种「基于注意力机制」的模型,广泛应用于自然语言处理(NLP)任务,如机器翻译、文本生成和问答系统。它由 Vaswani 等人在 2017 年的论文《Attention Is All You Need》中提出,突破了传统序列模型(如RNN和LSTM)的限制,特别是在长距离依赖问题上表现出色。它是 ChatGPT 和所有其他 LLM 的支柱。原创 2024-06-23 17:14:48 · 913 阅读 · 0 评论 -
GiantPandaCV | FasterTransformer Decoding 源码分析(一)-整体框架介绍
FasterTransformer是 NVIDIA 推出的一个用于加速 Transformer 模型推理的库。该库主要通过使用 NVIDIA 的深度学习加速库 cuBLAS、cuDNN 和 TensorRT,以及深度学习框架 TensorFlow 和 PyTorch 的扩展,对 Transformer 模型进行优化和加速。本系列文章试图对FasterTransformer中的Decoding Model进行详细的分析,主要探究其代码模块设计、性能加速优化方案和CUDA Kernel实现技巧,通过学习源码掌原创 2024-05-02 09:27:18 · 1343 阅读 · 0 评论 -
机器学习算法那些事 | 使用Transformer模型进行时间序列预测实战
时间序列预测是一个经久不衰的主题,受自然语言处理领域的成功启发,transformer模型也在时间序列预测有了很大的发展。本文可以作为学习使用Transformer 模型的时间序列预测的一个起点。原创 2024-03-24 13:52:39 · 6336 阅读 · 3 评论 -
集智书童 | 炸裂 !轻量化YOLO | ShuffleNetv2与Transformer结合,重塑YOLOv7成就超轻超快YOLO
随着移动计算技术的迅速发展,在移动设备上部署高效的目标检测算法成为计算机视觉领域的一个关键研究点。本研究聚焦于优化YOLOv7算法,旨在提高其在的操作效率和速度,同时确保高准确度。通过结合高级技术,如,本研究有效减少了模型的参数数量和内存使用,简化了网络架构,并加强了在资源受限设备上的实时目标检测能力。实验结果表明,改进后的YOLO模型表现出色,显著提升了处理速度同时保持了卓越的检测准确度。原创 2024-03-13 21:47:17 · 1100 阅读 · 0 评论 -
江大白 | 万字长文,近3年Transformer在小目标检测领域,进展与突破系统梳理!
目前基于Transformer结构的算法模型已经在计算机视觉(CV)领域展现出了巨大的影响力。他们在很多基础的计算机视觉任务上都超过了之前的卷积神经网络(CNN)算法模型。本文为读者详细讲解近3年Transformer在小目标领域的进展及突破!原创 2024-04-04 18:07:48 · 3948 阅读 · 0 评论
分享