目录 一、【FLA】注意力机制 1.1【FLA】注意力介绍 1.2【FLA】核心代码 二、添加【FLA】注意力机制 2.1STEP1 2.2STEP2 2.3STEP3 2.4STEP4 三、yaml文件与运行 3.1yaml文件 3.2运行成功截图 一、【FLA】注意力机制 1.1【FLA】注意力介绍 下图是【FLA】的结构图,让我们简单分析一下运行过程和优势,以及和Softmax Attention的对比 Softmax Attention(左侧) 处理流程: 输入矩阵:查询矩阵 𝑄的大小为 𝑁×𝑑,键矩阵 𝐾𝑇的大小为 𝑑×𝑁,值矩阵 𝑉 的大小为 𝑁×𝑑,其中 𝑁是序列长度