ChatGPT技术原理 第四章:Transformer模型
通过对输入序列中的所有元素同时进行查询、键和值操作,得到了一个新的向量序列,其中每个向量都表示序列中一个元素的加权和,权重是由查询向量和与该元素相关的键向量之间的点积计算得出的。其中,$W^Q, W^K, W^V$ 都是维度为 $d_k \times d_x$ 的可训练参数矩阵,$d_k$ 为每个注意力头中键和查询的向量维度,通常等于 $d_x/h$,其中 $h$ 是头数。Self-Attention机制是Transformer中的核心组件之一,用于在输入序列中找到重要的信息,并在不同位置之间进行交互。
复制链接