![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Transformer专栏
文章平均质量分 94
关于Transformer的一系列文章。
双木的木
种一棵树最好的时间是十年前,其次是现在。
展开
-
计算机视觉研究院 | Transformer王者归来!无需修改任何模块,时序预测全面领先
作者受多维时间序列的本身的数据特性启发,反思了现有Transformer在建模时序数据的问题,提出了一个通用的时序预测框架iTransformer。iTransformer框架创新地引入倒置的视角观察时间序列,使得Transformer模块各司其职,针对性完成时序数据两个维度的建模难题,展现出优秀的性能和通用性。面对Transformer在时序预测领域是否有效的质疑,作者的这一发现可能启发后续相关研究,使Transformer重新回到时间序列预测的主流位置,为时序数据领域的基础模型研究提供新的思路。原创 2024-07-25 19:56:06 · 964 阅读 · 0 评论 -
Coggle数据科学 | Kaggle干货:自定义transformers数据集
transformers是现在NLP同学必备的库,但在使用的过程中主要的代码是需要自定义数据集,那么如何舒服的读取数据,并使用transformers进行训练模型呢?原创 2024-07-24 17:45:20 · 941 阅读 · 0 评论 -
江大白 | 视觉Transformer与Mamba的创新改进,完美融合(附论文及源码)
在本文中,作者引入了MambaVision,这是首个专门为视觉应用设计的Mamba-Transformer混合骨架。作者提出了重新设计Mamba公式的方法,以增强全局上下文表示的学习能力,并进行了混合设计集成模式的综合研究。原创 2024-07-17 17:57:00 · 919 阅读 · 1 评论 -
程序员学长 | 快速学习一个算法,GAN
GAN 由两个部分组成:生成器(Generator)和判别器(Discriminator)。这两个部分通过一种对抗的过程来相互改进和优化。原创 2024-07-11 22:04:40 · 764 阅读 · 0 评论 -
AI生成未来 | 大语言模型的前世今生:万字长文完整梳理所有里程碑式大语言模型(LLMs)
本篇博客全面汇总了大型语言模型(LLMs)。从早期的预训练神经语言模型开始,探讨了它们的起源和发展。重点讨论了Transformer架构及其三个主要分类:仅编码器PLMs、仅解码器PLM和编码器-解码器PLM。接着,文章聚焦于GPT、LLaMA和PaLM这三大LLM家族,阐述了它们的特点和对语言模型领域的贡献。此外,还涉及了其他重要的LLMs,展现了该领域的广泛性和多样性。这篇博客不仅是对LLMs历史和模型做了完整的梳理,也突出了它们在自然语言处理技术发展中的关键角色。原创 2024-07-08 17:56:40 · 1132 阅读 · 0 评论 -
程序员学长 | 快速学会一个算法,xLSTM
今天给大家分享一个超强的算法模型,,xLSTM。xLSTM(Extended Long Short-Term)是对传统 LSTM(Long Short-Term Memory)模型的扩展和改进,旨在提升其在处理时间序列数据和序列预测任务中的性能。传统的 LSTM 模型通过引入遗忘门、输入门和输出门,解决了标准 RNN(Recurrent Neural Network)在长序列数据中存在的梯度消失和梯度爆炸问题。然而,LSTM 仍然存在一些局限性,尤其是在处理非常长的序列或需要更高维度特征提取时。原创 2024-07-07 19:58:42 · 833 阅读 · 0 评论 -
集智书童 | 英伟达和斯坦福基于 Transformer 的异常检测最新研究!
在本文中,作者提出了一种名为MDP的新颖剪枝框架,它将通道、层和块剪枝整合到一个统一的优化过程中,并开发了一种精确的延迟建模技术,捕捉输入和输出通道的同时变化。为了融合这些策略,作者将剪枝重新定义为混合整数非线性规划(MINLP),以在单次传递中高效地识别在特定延迟预算内的最优剪枝结构。原创 2024-07-06 20:41:02 · 754 阅读 · 0 评论 -
程序员学长 | 当 LSTM 遇上 Attention
本文来源公众号,仅用于学术分享,侵权删,干货满满。今天我们一起来聊一下深度学习中的注意力(Attention)机制注意力机制是深度学习中引入的一种技术,特别适用于通过引入注意力机制,Seq2Seq 模型能够在解码每个时间步时,动态地选择和关注输入序列中的不同部分,从而更好地捕捉输入序列的全局信息。在讨论注意力机制之前,我们先来了解一下 Seq2Seq 模型。原创 2024-07-03 18:57:56 · 895 阅读 · 0 评论 -
计算机视觉研究院 | YotoR:融合 Swin Transformer 和YoloR 的混合架构,提升目标检测性能
Transformers是自然语言处理领域的一项革命性技术,它也对计算机视觉产生了重大影响,有可能提高准确性和计算效率。YotoR将坚固的Swin Transformer主干与YoloR颈部和头部相结合。在实验中,YotoR模型TP5和BP4在各种评估中始终优于YoloR P6和Swin Transformers,比Swin Transformer模型提供了改进的目标检测性能和更快的推理速度。这些结果突出了进一步的模型组合和改进Transformer实时目标检测的潜力。原创 2024-07-02 20:15:06 · 716 阅读 · 0 评论 -
程序员学长 | 快速学会一个算法模型,LSTM
LSTM(Long Short-Term Memory)是一种特殊类型的循环神经网络(RNN),专门设计用来解决传统 RNN 在处理序列数据时面临的长期依赖问题。LSTM 的关键特征是其维持细胞状态的能力,细胞状态充当可以存储长序列信息的记忆单元。这使得 LSTM 能够随着时间的推移选择性地记住或忘记信息,使它们非常适合上下文和远程依赖性至关重要的任务。原创 2024-06-29 17:15:20 · 343 阅读 · 0 评论 -
计算机视觉研究院 | EfficientViT:让ViT更高效部署实现实时推理(附源码)
研究者提出了一个名为EfficientViT的高速Vision transformers家族。我们发现,现有transformer模型的速度通常受到内存低效操作的限制,特别是MHSA中的张量整形和逐元函数。因此,研究者设计了一种具有三明治布局的新构建块,即在有效的FFN层之间使用单个存储器绑定的MHSA,这在增强信道通信的同时提高了存储器效率。原创 2024-06-28 17:38:04 · 908 阅读 · 0 评论 -
程序员学长 | 快速学会一个算法,Transformer(下)
上篇文章我们已经介绍了编码器中的大部分概念,也基本知道了编码器的原理。现在让我们来看下, 编码器和解码器是如何协同工作的。编码器一般有多层,第一个编码器的输入是一个序列文本,最后一个编码器输出是一组序列向量,这组序列向量会作为解码器的 K、V 输入,其中 K=V=解码器输出的序列向量表示。这些注意力向量将会输入到每个解码器的 Encoder-Decoder Attention 层,这有助于解码器把注意力集中到输入序列的合适位置,如下图所示。原创 2024-06-24 19:24:17 · 938 阅读 · 0 评论 -
程序员学长 | 快速学会一个算法,Transformer(上)
今天给大家分享一个超强的算法模型,Transformer。我们会分两篇文章进行讲解。Transformer 模型是深度学习中一种「基于注意力机制」的模型,广泛应用于自然语言处理(NLP)任务,如机器翻译、文本生成和问答系统。它由 Vaswani 等人在 2017 年的论文《Attention Is All You Need》中提出,突破了传统序列模型(如RNN和LSTM)的限制,特别是在长距离依赖问题上表现出色。它是 ChatGPT 和所有其他 LLM 的支柱。原创 2024-06-23 17:14:48 · 839 阅读 · 0 评论 -
GiantPandaCV | FasterTransformer Decoding 源码分析(一)-整体框架介绍
FasterTransformer是 NVIDIA 推出的一个用于加速 Transformer 模型推理的库。该库主要通过使用 NVIDIA 的深度学习加速库 cuBLAS、cuDNN 和 TensorRT,以及深度学习框架 TensorFlow 和 PyTorch 的扩展,对 Transformer 模型进行优化和加速。本系列文章试图对FasterTransformer中的Decoding Model进行详细的分析,主要探究其代码模块设计、性能加速优化方案和CUDA Kernel实现技巧,通过学习源码掌原创 2024-05-02 09:27:18 · 1186 阅读 · 0 评论 -
机器学习算法那些事 | 使用Transformer模型进行时间序列预测实战
时间序列预测是一个经久不衰的主题,受自然语言处理领域的成功启发,transformer模型也在时间序列预测有了很大的发展。本文可以作为学习使用Transformer 模型的时间序列预测的一个起点。原创 2024-03-24 13:52:39 · 4102 阅读 · 2 评论 -
集智书童 | 炸裂 !轻量化YOLO | ShuffleNetv2与Transformer结合,重塑YOLOv7成就超轻超快YOLO
随着移动计算技术的迅速发展,在移动设备上部署高效的目标检测算法成为计算机视觉领域的一个关键研究点。本研究聚焦于优化YOLOv7算法,旨在提高其在的操作效率和速度,同时确保高准确度。通过结合高级技术,如,本研究有效减少了模型的参数数量和内存使用,简化了网络架构,并加强了在资源受限设备上的实时目标检测能力。实验结果表明,改进后的YOLO模型表现出色,显著提升了处理速度同时保持了卓越的检测准确度。原创 2024-03-13 21:47:17 · 946 阅读 · 0 评论 -
江大白 | 万字长文,近3年Transformer在小目标检测领域,进展与突破系统梳理!
目前基于Transformer结构的算法模型已经在计算机视觉(CV)领域展现出了巨大的影响力。他们在很多基础的计算机视觉任务上都超过了之前的卷积神经网络(CNN)算法模型。本文为读者详细讲解近3年Transformer在小目标领域的进展及突破!原创 2024-04-04 18:07:48 · 2549 阅读 · 0 评论 -
集智书童 | YOLO+混合注意力机制 | YOLOv5再加4.3%才可以做对手,Transformer混合设计依旧可以卷
YOLOv5重出江湖!在工业生产过程中,由于低效率、不统一的评估、高成本以及缺乏实时数据,传统的手动检测焊接缺陷不再被应用。为了解决表面贴装技术中焊接缺陷检测的低准确率、高误检率和计算成本问题,提出了一种新方法。该方法是一种专门针对焊接缺陷检测算法的混合注意力机制,通过增加准确度并降低计算成本来提高制造过程中的质量控制。混合注意力机制包括提出的增强多头自注意力机制和协调注意力机制,以增加注意力网络感知上下文信息的能力,并提高网络特征利用率。原创 2024-03-02 22:18:18 · 1244 阅读 · 0 评论 -
江大白|万字长文,深入浅出Transformer,值得收藏!(测试代码已跑通)
我们会像搭积木建城堡那样从低往高地构建Transformer模型。先构建6个基础组件:多头注意力、前馈网络、层归一化、残差连接、单词嵌入、位置编码。类似用最基础的积木块搭建了 墙壁,屋顶,篱笆,厅柱,大门,窗户 这样的模块。然后用这6个基础组件构建了3个中间成品: 编码器,解码器,产生器。类似用基础组件构建了城堡的主楼,塔楼,花园。最后用这3个中间成品组装成Tranformer完整模型。类似用主楼,塔楼,花园这样的中间成品拼凑出一座完整美丽的城堡。原创 2024-01-23 21:08:02 · 1021 阅读 · 0 评论 -
GiantPandaCV | FasterTransformer Decoding 源码分析(三)-LayerNorm介绍
本文是FasterTransformer Decoding 源码分析的第三篇,主要介绍FasterTransformer中LayerNorm是如何实现及优化的。首先会简单介绍下LayerNorm的背景知识,然后从源码上逐层向下分析具体的实现。原创 2024-05-06 17:09:23 · 1314 阅读 · 0 评论 -
极市平台 | 一文详解视觉Transformer模型压缩和加速策略(量化/低秩近似/蒸馏/剪枝)
本研究通过评估四种主要的模型压缩技术:量化、低秩近似、知识蒸馏和剪枝,来解决这一挑战。系统地分析和比较了这些技术及其组合在优化ViT以适应资源受限环境方面的效果。原创 2024-05-09 14:36:46 · 1001 阅读 · 0 评论 -
江大白 | 基于Pytorch框架,从零实现Transformer模型实战(建议收藏!)
Transformer作为深度学习进入大模型时代的标志性模型,其强大的性能被广泛应用于各个领域。本文基于Pytorch框架从零开始搭建Transformer模型,不仅有详细的脚本说明,还涵盖了丰富了模型分析,希望对大家有帮助。原创 2024-05-25 22:13:17 · 4120 阅读 · 0 评论 -
GiantPandaCV | FasterTransformer Decoding 源码分析(二)-Decoder框架介绍
Decoder模块是FasterTransformer Decoding model中最核心的处理模块,在GiantPandaCV | FasterTransformer Decoding 源码分析(一)-整体框架介绍一文中详细介绍了Decoder模块在整体中所处的位置,本文试图从流程框架层面对该模块进行源码分析,梳理出主要处理模块,后续再逐步对各个模块实现进行解析。原创 2024-05-04 08:14:51 · 1091 阅读 · 0 评论 -
GiantPandaCV | FasterTransformer Decoding 源码分析(五)-AddBiasResidualLayerNorm介绍
本文对融合算子AddBiasResidualLayerNorm进行了详细的介绍,融合的计算操作在kernel实现中显得非常自然,没有什么trick的设计,这类融合主要是需要先对计算流程做分析,观察哪些算子可以融合。事实上很多在逻辑上是上下游且是elementwise的算子都可以融合,甚至融合后合并到下游算子中减少kernel调用次数,本文就是一个比较好的例子。原创 2024-05-19 21:59:28 · 835 阅读 · 0 评论 -
江大白 | 力压Transformer算法?首篇Mamba综述来了!(附论文及源码)
Mamba已迅速成为一种变革性的长序列建模架构,以其卓越的性能和高效的计算实现而闻名。随着它在计算机视觉领域的不断发展,本文对视觉曼巴方法进行了全面的综述。我们首先对Mamba架构进行深入概述,然后详细检查具有代表性的可视化Mamba骨干网络及其在各个可视化领域的广泛应用。这些应用程序按不同的模式进行系统分类,包括图像、视频、点云和多模式数据等。最后,我们批判性地分析了与视觉曼巴相关的挑战,强调了这种架构在推进计算机视觉方面尚未开发的潜力。根据这一分析,我们描绘了视觉曼巴未来的研究方向,提供了有价值的见解,原创 2024-05-14 21:55:02 · 7016 阅读 · 1 评论 -
GiantPandaCV | FasterTransformer Decoding 源码分析(四)-SelfAttention实现介绍
本文分析了FasterTransformer中selfAttention模块的设计方法和代码实现,笔者读了3遍最后的kernel函数实现才逐步厘清它的编码意图,这类代码有很多细节,像key cache的index逻辑(涉及到beam_size)、cache_indirect读取逻辑等等,笔者感觉也只掌握了60%-70%,只能先抓住主干再逐步展开分析细节,比较费时间。总的来说FasterTransformer最精彩的优化本质上还是是空间换计算时间,原理非常简单,难就难在应用和实践上,与诸君共勉吧。原创 2024-05-17 17:50:07 · 925 阅读 · 0 评论 -
GiantPandaCV | FasterTransformer Decoding 源码分析(六)-CrossAttention介绍
本文相对前几篇文章来说更简单,分析了FasterTransformer中CrossAttention模块的设计方法和代码实现,和SelfAttention基本一致,只是对KV Cache的处理细节上有一点区别,整体上看缓存的使用会比SelfAttention多一些,所以速度应该还会快一点。原创 2024-06-01 19:23:32 · 901 阅读 · 0 评论 -
江大白 | 3W字长文,带你深入浅出视觉Transformer-上篇(建议收藏!)
transformer结构是google在17年的论文中提出,在NLP的多个任务上取得了非常好的效果,可以说目前NLP发展都离不开transformer。最大特点是抛弃了传统的CNN和RNN,整个网络结构完全是由Attention机制组成。由于其出色性能以及对下游任务的友好性或者说下游任务仅仅微调即可得到不错效果,在计算机视觉领域不断有人尝试将transformer引入,近期也出现了一些效果不错的尝试,典型的如目标检测领域的detr和可变形detr分类领域的vision transformer等等。原创 2024-06-05 21:21:37 · 1106 阅读 · 0 评论 -
江大白 | 3W字长文,带你深入浅出视觉Transformer-下篇(建议收藏!)
本文从transformer发展历程入手,并且深入介绍了transformer思想和实现细节;最后结合计算机视觉领域的几篇有典型代表文章进行深入分析,希望能够给cv领域想快速理解transformer的初学者一点点帮助。原创 2024-06-05 21:48:29 · 1026 阅读 · 0 评论