Transformer系列技术博文汇总! |
文章目录
- 『Transformer系列』第1篇:矩阵乘法概念解释
- 『Transformer系列』第2篇:使用缩放点积方法的自注意力
- 『Transformer系列』第3篇:深入探讨多头注意力、自注意力和交叉注意力
- 『Transformer系列』第4篇:Transformer 架构
- 『Transformer系列』第5篇:PostLN,PreLN和ResiDual Transformers
- 『Transformer系列』第6篇:多头注意力的变种:多查询(MQA)和分组查询注意力(GQA)
- 『Transformer系列』第7篇:Transformer的几种高效自注意力(降低计算复杂度的方法)!
- 『Transformer系列』第8篇:注意力机制中的线性复杂度:PyTorch中的逐步实现
- 『Transformer系列』第9篇:相对自注意力解释
『Transformer系列』第1篇:矩阵乘法概念解释
- Matrix Multiplication Concept Explained(矩阵乘法概念解释)
『Transformer系列』第2篇:使用缩放点积方法的自注意力
- Self-Attention Using Scaled Dot-Product Approach(使用缩放点积方法的自注意力)
『Transformer系列』第3篇:深入探讨多头注意力、自注意力和交叉注意力
- A Dive Into Multihead Attention, Self-Attention and Cross-Attention(深入探讨多头注意力、自注意力和交叉注意力)
『Transformer系列』第4篇:Transformer 架构
- Transformer Architecture(Transformer 架构)
『Transformer系列』第5篇:PostLN,PreLN和ResiDual Transformers
- PostLN, PreLN and ResiDual Transformers
『Transformer系列』第6篇:多头注意力的变种:多查询(MQA)和分组查询注意力(GQA)
- Variants of Multi-head attention: Multi-query (MQA) and CGrouped-query attention (GQA)(多头注意力的变种:多查询(MQA)和分组查询注意力(GQA))
『Transformer系列』第7篇:Transformer的几种高效自注意力(降低计算复杂度的方法)!
- Efficient Self-Attention for Transformers(Transformer模型的高效自注意力机制)
- 文章链接:『Transformer系列』第7篇:Transformer的几种高效自注意力(降低计算复杂度的方法)!
『Transformer系列』第8篇:注意力机制中的线性复杂度:PyTorch中的逐步实现
- Linear Complexity in Attention Mechanism: A step-by-stepimplementation in PyTorch(注意力机制中的线性复杂度:PyTorch中的逐步实现)
『Transformer系列』第9篇:相对自注意力解释
- Relative Self-Attention Explained(相对自注意力解释)