
改进与挑战Transformer:mamba/TTT等
文章平均质量分 96
改进与挑战Transformer:mamba/TTT等
v_JULY_v
七月在线创始人兼CEO,结构之法算法之道blog之博主
展开
-
一文通透vLLM与其核心技术PagedAttention:减少KV Cache碎片、提高GPU显存利用率(推理加速利器)
众所周知,运行GPT这样的大模型应用非常昂贵,需要大量的硬件加速器,如GPU「我司过去半年做了一系列大模型应用,比如基于大模型的论文审稿、翻译、修订、对话、idea提炼,对此深有感触根据最近的估算,处理一个LLM请求的成本可能是传统关键词查询的10倍[43]。鉴于这些高昂的成本,提高吞吐量——从而降低成本——变得尤为重要。原创 2024-12-03 23:46:53 · 6631 阅读 · 0 评论 -
一文通透TTT:让RNN的隐藏层变成可学习的函数——继mamba之后也想超越Transformer
TTT出来有一段时间了,让我确定要写TTT解读的,是源于我司LLM论文100篇课程群里的一学员辰子说,“校长 最近的TTT考不考虑讲一下”故当时想着:解读完mamba2之后,则解读open-television、我司7方面review微调gemma2,再接下来是TTT、nature审稿微调、序列并行、Flash Attention3..如今虽然mamba2的解读还没完全修订完,但“open-television、我司7方面review微调gemma2”都解读的差不多了,故今天开写TTT。原创 2024-07-22 21:42:05 · 7051 阅读 · 1 评论 -
一文通透想取代MLP的KAN:通俗理解Kolmogorov-Arnold定理和KAN的方方面面
24年5.19,我司七月的「LLM论文100课」里的一学员在课程q群内提到,“最近总是看到KAN,KAN这个概念重要吗?需要了解学习吗?”,我当时回复道:KAN值得学习和了解,咱们课程上 也要讲一下如此,本文也就出来了。原创 2024-05-20 23:49:21 · 23156 阅读 · 15 评论 -
一文速览mamba的各种变体与改进:从MoE-Mamba、Vision Mamba、VMamba、Jamba到Falcon Mamba
其实早在今年4月,我便在微博上说道:本月已经攒了好多篇博客待写,十之八九为项目需要,十之一二为课程需要今年快结束了,截止目前为止,前三篇都已写了,至于MOE模型也写了deepseek,但mamba的几个重要变体一直没来得及写,原因就太多了,比如直到近期,具身机器人发文的速度稍稍慢下来了(注意,只是稍稍),便有时间写一下之前计划已久的大模型相关的文章,包括本文要写的各种mamba变体或改进毕竟本文之前的mamba解读确实影响力大,加之基于mamba的变体或改进又层出不穷,故本文来了。原创 2024-12-07 23:57:06 · 7523 阅读 · 0 评论 -
一文通透mamba2「力证Transformer are SSM」:从SSM、半可分矩阵、SMA、SSD到mamba2
实话说,过去一两月一直忙着我司两大类项目的推进所以虽然说mamba2已发布一月有余,但实在是没有一块完整的时间来对其做详尽而细致的解读,而最终促使我来写的最大的动力还是来源于我半年前对mamba1的解读实在是太受欢迎了且影响力巨大然,在我下定决心写本文之前,内心还是有过一阵小纠结的不过还是因为过去十多年写博客的经验,使得自己在面对再难啃的算法都有足够的自信与底气,坚信都可以一步步拆解、一步步抽丝剥茧并清晰易懂的写出来,故本文最终还是来了。原创 2024-07-03 00:34:02 · 25613 阅读 · 40 评论 -
一文通透想颠覆Transformer的Mamba:从SSM、HiPPO、S4到Mamba(被誉为Mamba最佳解读)
如本文开头所说,mamba论文的一作Albert Gu多年来一直在推动SSM的发展他在SSM的基础上,通过此篇论文《》首次提出了结构化状态空间S4(这里有关于S4的更多论文),但这篇论文的可读性比较差当然,作者在YouTube上有一个关于这篇S4论文的精彩解读,比S4论文的可读性提高很多,且本文中也应用了其中的部分PPT截图,但还可以更加通俗易懂。原创 2023-12-11 12:48:36 · 253668 阅读 · 309 评论 -
通透理解FlashAttention(含其2代和第3代):全面降低显存读写、加快计算速度
因此,可以确认:在 MQA 中,除了 query 向量还保存着 8 个头,key 和 value 向量都只剩 1 个「公共头」了,这也正好印证了论文中所说的「所有 head 之间共享一份 key 和 value 的参数」所以,上面讲到计算注意力的主要瓶颈是显存访问,因此减少对HBM的读写次数,有效利用更高速的SRAM来进行计算是非常重要的,而GPU有大量的线程来执行某个操作,称为。(需要注意的是,模型训练通常会影响到算子融合的效果,因为为了后向传递计算梯度,通常需要将某些中间结果写入到HBM中)原创 2023-10-06 20:08:32 · 69263 阅读 · 89 评论 -
一文通透各种注意力:从多头注意力MHA到分组查询注意力GQA、多查询注意力MQA
因此,可以确认:在 MQA 中,除了 query 向量还保存着 8 个头,key 和 value 向量都只剩 1 个「公共头」了,这也正好印证了论文中所说的「所有 head 之间共享一份 key 和 value 的参数」然而,随着上下文窗口或批量大小的增加,多头注意力 (MHA)模型中与 KV 缓存大小相关的内存成本显着增长。对于较大的模型,KV 缓存大小成为瓶颈,键和值投影可以在多个头之间共享,而不会大幅降低性能,可以使用。),其能够在保证模型效果的同时加快 decoder 生成 token 的速度。原创 2023-11-05 11:48:34 · 11254 阅读 · 0 评论 -
一文通透位置编码:从标准位置编码、旋转位置编码RoPE到ALiBi、LLaMA 2 Long(含NTK-aware简介)
关于位置编码和RoPE为彻底解决这个位置编码/RoPE的问题,我把另外两篇文章中关于这部分的内容抽取出来,并不断深入、扩展、深入,最终成为本文。原创 2023-10-27 23:16:18 · 52170 阅读 · 47 评论 -
从零实现Transformer的简易版与强大版:从300多行到3000多行
transformer强大到什么程度呢,基本是17年之后绝大部分有影响力模型的基础架构都基于的transformer(比如,有200来个,包括且不限于基于decode的GPT、基于encode的BERT、基于encode-decode的T5等等)通过博客内的这篇文章《》,我们已经详细了解了transformer的原理(如果忘了,建议先务必复习下再看本文)原创 2023-04-12 18:24:41 · 44445 阅读 · 53 评论 -
Transformer通俗笔记:从Word2Vec、Seq2Seq逐步理解到GPT、BERT
我在写上一篇博客《》时,有读者在文章下面评论道:“july大神,请问BERT的通俗理解还做吗?”,我当时给他发了张俊林老师的BERT文章,所以没太在意。直到今天早上,刷到CSDN上一篇讲BERT的文章,号称一文读懂,我读下来之后,假定我是初学者,读不懂。(这是),再比如国内张俊林老师的这篇《》,然后你会发现几乎网上关于Transformer/BERT的文章无外乎是以下这几种情况。原创 2022-10-23 23:03:05 · 115506 阅读 · 0 评论