
Transformer专栏
文章平均质量分 92
关于Transformer的一系列文章。
双木的木
种一棵树最好的时间是十年前,其次是现在。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
江大白 | 全网最全2.6W字综述,深入浅出大模型核心技术:微调、推理与优化指南!
本文全面综述了大语言模型(LLM)的核心技术,包括模型架构、训练方法、微调技术和优化策略。首先介绍了Transformer架构作为LLM的基础,以及预训练面临的巨大计算挑战。重点探讨了参数高效微调(PEFT)技术,如适配器、LoRA、QLoRA等方法,它们能在减少计算资源的同时保持模型性能。文章详细分析了多种量化技术(GPTQ、NF4、GGML)和模型压缩方法(剪枝、知识蒸馏),这些技术显著降低了模型部署成本。此外,还介绍了推理优化策略和提示工程技术(如思维链CoT、ReAct等),帮助提升模型输出质量。本原创 2025-06-05 17:07:37 · 1152 阅读 · 0 评论 -
Datawhale | Text Diffusion,来了!
本文介绍了Diffusion模型在语言生成领域的最新进展,重点分析了LLaDA系列工作如何验证Diffusion模型在8B规模下与自回归模型(AR)相当的性能。作者李崇轩团队通过RADD和LLaDA等研究,证明了离散扩散模型(MDM)在去掉时间参数t后,能够简化模型结构并提升性能。当前Diffusion模型展现出三大优势:并行推理、双向上下文建模和测试时可扩展性。虽然工业界已推出GeminiDiffusion等产品,但学术界更关注基础研究,包括解决变长生成等技术难题。该领域仍存在广阔探索空间,开源生态原创 2025-06-04 16:09:23 · 867 阅读 · 0 评论 -
AI生成未来 | 智能体人工智能(AGENT AI)全面综述:探索多模态交互的前沿技术(四)
智能体人工智能的一个重要目标是开发能够在多种模态、领域中运行,并弥合模拟与现实之间差距的通用智能体。这需要智能体能够处理不同类型的输入,如视觉、语言和音频信息,并在不同的环境中有效地执行任务,无论是虚拟的还是现实世界的。原创 2025-05-13 16:48:57 · 688 阅读 · 0 评论 -
集智书童 | 超越 YOLOv9 和 RT-DETR | CPLOYO设计C2f双模块+KAN网络,提高检测精度,并增强泛化能力
物联网(IoT)技术在肺结节检测中的应用显著提升了检测系统的智能化和实时性。目前,肺结节检测主要关注实性结节的识别,但不同类型的肺结节对应着各种形式的肺癌。多类型检测有助于提高整体肺癌检测率和治愈率。原创 2025-05-12 16:54:56 · 1229 阅读 · 0 评论 -
CV技术指南 | 动态视觉Backbone!港大团队开源TransXNet,入选顶刊TNNLS 2025
与以往的卷积和 self-attention 混合模块或全局与局部信息融合模块不同,D-Mixer 专注于动态性的捕捉。具体来说,D-Mixer 能够利用网络上一层的 feature maps 信息,生成用于提取当前 feature maps 的全局和局部动态权重,从而显著增强模型对多尺度特征的动态表征能力。原创 2025-05-10 01:00:00 · 840 阅读 · 0 评论 -
架构师炼丹炉 | 大语言模型引擎全解析:Transformers、vLLM、Llama.cpp、SGLang、MLX 和 Ollama
本文将带你深入了解 Transformers、vLLM、Llama.cpp、SGLang、MLX 和 Ollama 这些引擎,帮助你找到最适合的工具,释放大语言模型的全部潜力!原创 2025-05-09 15:00:09 · 1105 阅读 · 0 评论 -
数据派THU | 独家 | 用图逐层解析Transformer(推荐收藏!)
它很漂亮!如果不是因为它非常有用,我可能不会这么想。我现在体会到了人们第一次看到它工作时的感觉。这个用很少代码就能表达的优雅、可训练的模型学会了如何翻译人类语言,并击败了几十年来建立的复杂机器翻译系统。它神奇、聪明,令人难以置信。你可以看到下一步是怎么说的,而不用在意翻译的句子。让我们在互联网上的每一点文本上使用这种技术—大语言模型就这样诞生了!原创 2025-05-06 16:37:40 · 662 阅读 · 0 评论 -
Coggle数据科学 | 小白学大模型:多模态 Qwen2.5-VL
Qwen-VL 是阿里云研发的大规模视觉语言模型(Large Vision Language Model, LVLM)。Qwen-VL 可以以图像、文本、检测框作为输入,并以文本和检测框作为输出。Qwen-VL 系列模型性能强大,具备多语言对话、多图交错对话等能力,并支持中文开放域定位和细粒度图像识别与理解。原创 2025-05-02 10:20:45 · 532 阅读 · 0 评论 -
码科智能 | 从分割一切到描述一切!从笼统概括到细粒度区域描述!英伟达开源DAM模型:指令控制的字幕生成
如果AI能像上述一样事无巨细地观察世界,会发生什么?之前爆火的SAM模型让我们能"分割一切",但分割后的区域到底意味着什么?进一步地给出该区域的目标类别显然不够,我们还是希望AI能描述该区域的细节内容!原创 2025-05-02 10:19:27 · 773 阅读 · 0 评论 -
江大白 | PyTorch CUDA 内存管理优化:深度理解GPU资源分配与缓存机制!
本文深入理解 PyTorch 是如何管理和分配 GPU 显存的,并结合实战经验,探讨如何通过定制内存策略和调度机制,最大化你的 GPU 集群性能,摆脱 CUDA out of memory 恐惧症。原创 2025-04-29 21:55:46 · 1190 阅读 · 0 评论 -
小白学视觉 | 小白看得懂的 Transformer (图解)
谷歌推出的BERT模型在11项NLP任务中夺得SOTA结果,引爆了整个NLP界。而BERT取得成功的一个关键因素是Transformer的强大作用。谷歌的Transformer模型最早是用于机器翻译任务,当时达到了SOTA效果。Transformer改进了RNN最被人诟病的训练慢的缺点,利用self-attention机制实现快速并行。并且Transformer可以增加到非常深的深度,充分发掘DNN模型的特性,提升模型准确率。在本文中,我们将研究Transformer模型,理解它的工作原理。原创 2025-04-29 21:52:56 · 892 阅读 · 0 评论 -
集智书童 | 新一代LMM基线发布 | 早期自回归融合+预训练先验驱动,性能直追组合模型,训练资源大幅精简!
近年来,大语言模型(LLMs)的进展显著推动了大型多模态模型(LMMs)的发展,突显了通用和智能助手的潜力。然而,大多数LMMs分别对视觉和文本模态进行建模,导致近期努力开发使用单个transformer的局部LMM。尽管前景看好,但这些局部模型资源密集,通常与它们的组合对应模型相比存在性能差距。原创 2025-04-28 16:28:51 · 988 阅读 · 0 评论 -
CourseAI | 【综述:入门必读】RAG演变到MRAG的三个阶段
多模态检索增强生成 (MRAG) 通过将多模态数据(例如文本、图像和视频)集成到检索和生成过程中。MRAG 通过扩展 RAG 框架以包含多模态检索和生成来解决此限制,从而实现更全面和上下文相关的响应。在 MRAG 中,检索步骤涉及从多种模态中定位和整合相关知识,而生成步骤则利用多模态大型语言模型 (MLLM) 来生成包含多种数据类型信息的答案。原创 2025-04-24 17:27:06 · 854 阅读 · 0 评论 -
AI生成未来 | Seedream 3.0技术细节重磅发布!中文图文生成再进化,2K高清+爆改文字渲染,远超Canva!
在 Seedream 2.0 中,采用了一种严格的数据过滤策略,系统性地剔除包含轻微缺陷(如水印、覆盖文字、字幕、马赛克等)的图像数据。这种严格的过滤显著限制了训练所用数据量,尤其考虑到此类缺陷样本约占原始数据集的 35%。为解决这一问题,Seedream 3.0 引入了一种创新的“缺陷感知训练范式”。该范式包含一个专门训练的缺陷检测器,基于 15,000 张由主动学习引擎挑选并人工标注的样本构建。该检测器可通过边界框预测精确定位缺陷区域。原创 2025-04-19 17:27:17 · 1313 阅读 · 0 评论 -
江大白 | Transformer算法内部,工作原理及拆解
Transformer展现了前所未有的语言理解和生成能力,推动 AI 技术进入新纪元。本文将对Transformer内部工作原理进行拆解,希望对大家有所帮助。Transformer 是一种特定的神经网络架构,彻底改变了人工智能领域,尤其是在自然语言处理 (NLP) 中。它是大型语言模型(如 ChatGPT)的核心技术。LLMs 是基于大量文本数据训练的 AI 系统,能够生成类似人类的文本、翻译语言、撰写不同类型的创意内容,以及回答问题。原创 2025-04-16 17:24:52 · 1035 阅读 · 0 评论 -
AI算法与图像处理 | 月之暗面开源轻量级MoE多模态模型,支持推理,效果超过GPT-4o!
月之暗面最新开源了基于MoE架构的高效多模态模型Kimi-VL,它具有先进的多模态推理、长文本理解以及强大的agent能力,模型总参数为16B,但是推理时激活参数不到3B。原创 2025-04-11 17:09:54 · 911 阅读 · 0 评论 -
极市平台 | ICLR 2025 | 比MoE快6倍,成本暴降83%!字节发布超稀疏架构UltraMem
有效解决了 MoE 推理时高额的访存问题,推理速度较 MoE 架构提升 2-6 倍,推理成本最高可降低 83%。原创 2025-04-10 17:35:38 · 933 阅读 · 0 评论 -
机器学习算法那些事 | 有位大佬逐模块解析了detr结构
Transformer在计算机视觉领域大方异彩,是Transformer在目标检测领域的成功应用。利用Transformer中attention机制能够有效建模图像中的长程关系(long range dependency),简化目标检测的pipeline,构建端到端的目标检测器。原创 2025-04-08 16:11:32 · 1234 阅读 · 0 评论 -
OpenCV与AI深度学习 | 如何在自定义数据集上训练 RF-DETR
RF-DETR于 2025 年 3 月 19 日发布,是 Roboflow 开发的基于 Transformer 的对象检测模型架构。RF-DETR 实现了最先进的性能,在 COCO 和新推出的 RF100-VL 数据集上均击败了 LW-DETR 和 YOLOv11 等模型。RF100-VL 是一个基准,旨在验证具有检测能力的模型在一系列领域的通用性。原创 2025-04-08 10:12:42 · 977 阅读 · 0 评论 -
量子位 | LIama 4发布重夺开源第一!DeepSeek同等代码能力但参数减一半,一张H100就能跑,还有两万亿参数超大杯
Llama 4 Scout,16位专家的170亿激活参数的多模态模型,单个H100 GPU可运行, 同类SOTA,并拥有10M上下文窗口Llama 4 Maverick,128位专家的170亿激活参数多模态模型,击败GPT-4o和Gemini 2.0 Flash,与DeepSeek-V3同等代码能力参数只要一半,主打与DeepSeek一样的性价比,单个H100主机即可运行。Llama 4 Behemoth:2万亿参数的超大超强模型,以上二者都由这个模型蒸馏而来;目前还在训练中;多个基准测试超过GPT原创 2025-04-07 17:02:15 · 945 阅读 · 0 评论 -
Coggle数据科学 | 行业落地分享:FastGPT企业Agent落地实践
大模型的优势在于其知识面广,能够涵盖众多领域的知识,为用户提供丰富的信息。它们能够理解复杂问题,通过大量的数据学习和分析,找到问题的核心所在。然而,大模型也存在一些问题。它们基于概率进行判断,这使得它们在某些情况下不够稳定,可能会出现错误或不准确的回答。原创 2025-04-02 17:50:17 · 783 阅读 · 0 评论 -
集智书童 | HybridNorm 革新 Transformer 训练 | QKV与 FFN 双路径混合归一化,稳定训练+性能突破双赢
Transformer 已成为众多机器学习任务的默认架构,尤其是在大语言模型(LLMs)中。尽管它们的表现令人瞩目,但在训练深度 Transformer 网络方面仍存在挑战,尤其是在层归一化的位置上。虽然Pre-Norm结构由于其更明显的恒等路径而便于训练,但与Post-Norm相比,它们通常会产生次优的性能。原创 2025-03-31 17:50:38 · 1158 阅读 · 0 评论 -
数据派THU | 深入解析Tiktokenizer:大语言模型中核心分词技术的原理与架构(建议收藏!)
在快速发展的自然语言处理(NLP)领域,分词(tokenization)作为将原始文本转换为机器可处理格式的首要环节,具有不可替代的重要性。分词过程将文本分割成离散单元——即token,这些token构成了后续分析的基础,包括词嵌入(embedding)、语法解析和模型训练等多个环节。原创 2025-03-28 17:12:38 · 1029 阅读 · 0 评论 -
arXiv每日学术速递 | 澳门大学最新!CoT-Drive:开启自动驾驶思维链时代,突破复杂场景理解瓶颈~
感知、预测、规划三位一体的自动驾驶架构虽然在端到端的趋势下,逐渐退出历史舞台,但是对于每个环节的理解和提升,也可以推动更好的模型设计和发展。今天要介绍的这篇工作,就是要用新技术做更好的旧任务——如何运用LLMs和思维链的提示去做预测任务。首先,不可否认的是,自动驾驶车辆在动态环境中对交通参与者进行精准运动预测,是下游决策制定和安全规划的基础,也是整个系统非常核心环节。原创 2025-03-28 17:00:53 · 801 阅读 · 0 评论 -
极市平台 | 让小模型也能有大作为!SANA 1.5:线性扩散Transformer再刷文生图新SOTA
把模型参数从 1.6B (20 blocks) 缩放到 4.8B (60 blocks),重用小模型的知识。不用从头开始训练模型。原创 2025-03-25 21:48:10 · 927 阅读 · 0 评论 -
DataFunTalk | 从Manus到OpenManus:AI产品如何赢得未来?
今天咱们来聊一下这两天在AI圈掀起轩然大波的Manus,以及开源版 OpenManus。这两款产品背后的技术细节、市场反应以及它们的未来发展方向,都值得我们探讨一番。原创 2025-03-20 23:04:00 · 1420 阅读 · 0 评论 -
周报 | 25.3.10-25.3.16文章汇总
为了更好地整理文章和发表接下来的文章,以后每周都汇总一份周报。好的文章值得反复学习!原创 2025-03-17 17:39:10 · 342 阅读 · 0 评论 -
量子位 | 何恺明LeCun联手改造Transformer!9行代码替代归一化层,性能不减还加速
归一化长期以来一直被认为是必不可少的,在现代神经网络中无处不在。但团队认为可以换用一种非常简单的技术,他们提出(Dynamic Tanh),直接替代Layer Norm或RMSNorm,性能达到或超过标准Transformer。从视觉的ViT/MAE,到语言模型的LLaMA,再到语音、DNA系列等模态都可以用,完整代码库已开源。网友评价说,只要元素级运算就能实现和归一化一样的效果,这对于效率优化来说简直是免费的午餐。原创 2025-03-15 17:16:53 · 936 阅读 · 0 评论 -
江大白 | CVPR2025,英伟达提出首个Mamba-Transformer视觉骨干网络!(附论文和源码)
CVPR 2025,混合新架构MambaVision来了!Mamba+Transformer混合架构专门为CV应用设计。MambaVision 在Top-1精度和图像吞吐量方面实现了新的SOTA,显著超越了基于Transformer和Mamba的模型。原创 2025-03-13 20:53:13 · 1509 阅读 · 0 评论 -
极市平台 | 从Deepseek R1和NSA算法谈谈个人的一些反思
最近某个群里面有一道考验大模型能力数学题, 感觉这个题比9.9和9.11谁大更考验Reasoning模型, 似乎很多大模型的答案都做的不好. DeepSeek-R1能做对,但是整个思考过程非常长, 大家可以自己试试.原创 2025-03-08 15:57:37 · 817 阅读 · 0 评论 -
DataFunTalk | 万字长文解构DeepSeek V1/V2/V3/R1进化史:从算法革命到推理涌现!(建议收藏)
如题,万字长文解构DeepSeek V1/V2/V3/R1进化史:从算法革命到推理涌现!非常详细,干货满满!原创 2025-03-07 09:33:14 · 712 阅读 · 0 评论 -
集智书童 | 0.06%数据追上SAM | 浙大提出DiCEPTIoN统一多任务感知,直击工业痛点
作者的主要目标是创建一个优秀的通用感知模型,能够在有限的计算资源和训练数据条件下处理多个任务。为此,作者利用在数十亿图像上预训练的文本到图像扩散模型,并引入作者的视觉通用模型:DiCEPTIoN。作者详尽的评估指标表明,DiCEPTIoN有效地处理了多个感知任务,其性能与最先进模型相当。作者仅使用其数据的0.06%(例如,600K与10亿像素级标注图像)就达到了与SAM-vit-h相当的结果。受Wang等人[109]的启发,DiCEPTIoN使用颜色编码来表述各种感知任务的输出;作者展示了将随机颜色分配给不原创 2025-03-06 09:44:54 · 861 阅读 · 0 评论 -
Datawhale | 最新「大模型简史」整理!从Transformer(2017)到DeepSeek-R1(2025)--建议收藏!
LLMs正逐步演变为多功能、多模态的推理系统,能够同时满足普通用户和特定需求。这一演变得益于突破性技术创新,以及在规模、易用性和成本效益上的显著提升,推动人工智能朝着更加包容和影响力深远的方向迈进。原创 2025-03-03 11:18:54 · 1475 阅读 · 0 评论 -
程序员学长 | Transformer 的三大优化技术!!
Transformer 是一种基于自注意力(Self-Attention)机制的深度学习模型,最早由 Vaswani 等人在 2017 年的论文《Attention Is All You Need》中提出。原创 2025-03-02 01:30:00 · 664 阅读 · 0 评论 -
kaggle竞赛宝典 | Qwen魔改为DeepSeek,再复现R1
本文证明了GQA模型都能转化为MLA形式,给了大模型厂商一个放弃GQA,拥抱MLA的理由,以及快速过渡的方法。然而收到原始模型结构的限制,TransMLA的结构并不是最优的,如没有对Query进行压缩,没有使用Decoupled RoPE,以及Key和Value使用了独立的latent Vectors。原创 2025-03-01 21:13:14 · 849 阅读 · 0 评论 -
集智书童 | 视觉Transformer革命 | SparseFormer 横扫高分辨检测,跨切片 NMS 驯服巨幅尺度鸿沟
近年来,使用像素级图像和视频捕捉系统以及具有高分辨率宽视角(HRW)的基准测试越来越多。然而,与MS COCO数据集中的近距离拍摄不同,更高的分辨率和更宽的视野带来了独特的挑战,如极端Sparse性和巨大的尺度变化,导致现有的近距离检测器不准确且效率低下。原创 2025-02-27 17:44:11 · 815 阅读 · 0 评论 -
集智书童 | 边缘AI革命!MicroViT 革新轻量视觉Transformer:3.6倍速+40%能效提升,突破边缘部署极限
本文介绍了MicroViT,这是一种针对边缘设备优化的新型轻量级视觉Transformer架构,考虑了计算能力和能效。通过采用高效单头注意力(ESHA)机制,MicroViT在保持视觉任务中具有竞争力的准确率的同时,实现了计算复杂度和能耗的显著降低。在ImageNet-1K和COCO数据集上的大量实验表明,MicroViT不仅提高了3.6倍的吞吐量和推理速度,而且在边缘设备上的效率和性能方面超过了多个MobileViT模型,效率提升了40%。这些结果证实,MicroViT是部署视觉Transformer在资原创 2025-02-19 10:42:45 · 953 阅读 · 0 评论 -
Coggle数据科学 | 小白学大模型:LogitsProcessor 文本可控生成
LogitsProcessorZoo 是一个强大的工具库,它为大语言模型的输出控制提供了多种实用的 logits 处理器(logits processor)。这些处理器能够在模型生成文本的过程中,对 logits(即模型输出的原始概率分布)进行调整,从而引导模型生成更符合用户需求的文本。:Hugging Face 的 transformers 库,广泛应用于自然语言处理任务。vLLM:一个高效的推理框架,专注于大规模语言模型的快速部署。原创 2025-02-14 00:15:00 · 1240 阅读 · 0 评论 -
Datawhale | o3-mini发布!奥特曼:在开源上OpenAI一直站在历史错误的一边
OpenAI 表示,今天发布的 o3-mini 是其推理模型系列中最新、最具成本效益的模型,已上线 ChatGPT 和 API 。原创 2025-02-05 00:30:00 · 801 阅读 · 0 评论 -
AI有道 | 就在刚刚,o3-mini 急上线!奥特曼率队深夜血战 DeepSeek!ChatGPT被挤爆!
眼看DeepSeek风头尽显,被逼急的OpenAI果然紧急发布了o3-mni。不光免费用户都能用,每百万输入和输出token价格更是疯狂跳水打骨折价!原创 2025-02-04 01:00:00 · 1023 阅读 · 0 评论