一、LLM的技术基石:Transformer架构与核心组件 (一)Transformer架构解析 Transformer是LLM的底层架构,其核心通过自注意力机制实现对序列数据的并行处理,突破了循环神经网络(RNN)的序列依赖瓶颈。 1. 自注意力机制(Self-Attention) 核心作用:动态计算序列中每个词与其他词的语义关联,捕捉长距离依赖。 数学公式: (Q)(查询向量)、(K)(键向量)、(V)(值向量)分别由输入序列映射而来;