改造与挑战Transformer:mamba/MLA/TTT
文章平均质量分 96
涉及到对注意力的各种改造
v_JULY_v
七月在线创始人兼CEO,结构之法算法之道blog之博主
展开
-
一文通透DeepSeek-V2(改造Transformer的中文模型):详解MoE、GRPO、MLA
成就本文有以下三个因素校长最近开始搞deepseek了吗?刚看了论文,没搞懂MLA那块的cache是怎么算的,我总觉得他的效果应该类似MQA才对,但是反馈是挺好的目前团队项目上的事情太多,然后近期在写那个KAN确实还没来得及看这个deepseek,我近期看下而搞之前——近几天,会先写一下它的论文解读,故本文就来了且一如既往做到,对于几乎每一个主题,都做到本博客万千读者或七月学员所说的:“还是看校长的文章好理解”,如有任何问题或任何不懂的地方,可以随时留言/评论,我会找时间尽快回复。原创 2024-08-26 21:18:39 · 3366 阅读 · 2 评论 -
一文通透TTT:让RNN的隐藏层变成可学习的函数——继mamba之后也想超越Transformer
TTT出来有一段时间了,让我确定要写TTT解读的,是源于我司LLM论文100篇课程群里的一学员辰子说,“校长 最近的TTT考不考虑讲一下”故当时想着:解读完mamba2之后,则解读open-television、我司7方面review微调gemma2,再接下来是TTT、nature审稿微调、序列并行、Flash Attention3..如今虽然mamba2的解读还没完全修订完,但“open-television、我司7方面review微调gemma2”都解读的差不多了,故今天开写TTT。原创 2024-07-22 21:42:05 · 4025 阅读 · 0 评论 -
一文通透想取代MLP的KAN:通俗理解Kolmogorov-Arnold定理和KAN的方方面面
24年5.19,我司七月的「LLM论文100课」里的一学员在课程q群内提到,“最近总是看到KAN,KAN这个概念重要吗?需要了解学习吗?”,我当时回复道:KAN值得学习和了解,咱们课程上 也要讲一下如此,本文也就出来了。原创 2024-05-20 23:49:21 · 12926 阅读 · 10 评论 -
一文通透mamba2「力证Transformer are SSM」:从SSM、半可分矩阵、SMA、SSD到mamba2
实话说,过去一两月一直忙着我司两大类项目的推进所以虽然说mamba2已发布一月有余,但实在是没有一块完整的时间来对其做详尽而细致的解读,而最终促使我来写的最大的动力还是来源于我半年前对mamba1的解读实在是太受欢迎了且影响力巨大然,在我下定决心写本文之前,内心还是有过一阵小纠结的不过还是因为过去十多年写博客的经验,使得自己在面对再难啃的算法都有足够的自信与底气,坚信都可以一步步拆解、一步步抽丝剥茧并清晰易懂的写出来,故本文最终还是来了。原创 2024-07-03 00:34:02 · 12247 阅读 · 29 评论 -
一文通透想颠覆Transformer的Mamba:从SSM、HiPPO、S4到Mamba
如本文开头所说,mamba论文的一作Albert Gu多年来一直在推动SSM的发展他在SSM的基础上,通过此篇论文《》首次提出了结构化状态空间S4(这里有关于S4的更多论文),但这篇论文的可读性比较差当然,作者在YouTube上有一个关于这篇S4论文的精彩解读,比S4论文的可读性提高很多,且本文中也应用了其中的部分PPT截图,但还可以更加通俗易懂。原创 2023-12-11 12:48:36 · 153336 阅读 · 237 评论 -
一文通透各种注意力:从多头注意力MHA到分组查询注意力GQA、多查询注意力MQA
因此,可以确认:在 MQA 中,除了 query 向量还保存着 8 个头,key 和 value 向量都只剩 1 个「公共头」了,这也正好印证了论文中所说的「所有 head 之间共享一份 key 和 value 的参数」然而,随着上下文窗口或批量大小的增加,多头注意力 (MHA)模型中与 KV 缓存大小相关的内存成本显着增长。对于较大的模型,KV 缓存大小成为瓶颈,键和值投影可以在多个头之间共享,而不会大幅降低性能,可以使用。),其能够在保证模型效果的同时加快 decoder 生成 token 的速度。原创 2023-11-05 11:48:34 · 8271 阅读 · 0 评论 -
一文通透位置编码:从标准位置编码、旋转位置编码RoPE到ALiBi、LLaMA 2 Long(含NTK-aware简介)
关于位置编码和RoPE为彻底解决这个位置编码/RoPE的问题,我把另外两篇文章中关于这部分的内容抽取出来,并不断深入、扩展、深入,最终成为本文。原创 2023-10-27 23:16:18 · 30422 阅读 · 33 评论 -
从零实现Transformer的简易版与强大版:从300多行到3000多行
transformer强大到什么程度呢,基本是17年之后绝大部分有影响力模型的基础架构都基于的transformer(比如,有200来个,包括且不限于基于decode的GPT、基于encode的BERT、基于encode-decode的T5等等)通过博客内的这篇文章《》,我们已经详细了解了transformer的原理(如果忘了,建议先务必复习下再看本文)原创 2023-04-12 18:24:41 · 38340 阅读 · 52 评论 -
Transformer通俗笔记:从Word2Vec、Seq2Seq逐步理解到GPT、BERT
我在写上一篇博客《》时,有读者在文章下面评论道:“july大神,请问BERT的通俗理解还做吗?”,我当时给他发了张俊林老师的BERT文章,所以没太在意。直到今天早上,刷到CSDN上一篇讲BERT的文章,号称一文读懂,我读下来之后,假定我是初学者,读不懂。(这是),再比如国内张俊林老师的这篇《》,然后你会发现几乎网上关于Transformer/BERT的文章无外乎是以下这几种情况。原创 2022-10-23 23:03:05 · 90281 阅读 · 131 评论