引言(文末有彩蛋(#^.^#))
本文对GPT整个计算过程做了详细的说明,精确到加减乘除每一步,主要内容包括:
- 详细的数据流水线 ,整个GPT2的过程非常详细;
- 适合大模型的初学者,可以明白大模型推理的整个数据流;
- 适合做算子开发,如大模型隐私推理,大模型隐私保护,大模型算子优化;
- 数据流程图+举例+原始GPT2代码的对照,更加通俗易懂的理解GPT.
0 GPT2架构整体
下方是GPT2的架构整体,包括嵌入层、归一化层,多头注意力机制、前馈神经网络层,以及最后的argmax操作(Vec2Word部分)。我们将对各个算子作详细透彻地解读。
1 嵌入层
- 以下是嵌入层的操作,代码中采用的是快捷的索引方法,与示例的方法略有不同,不过功能是一样的。由于维度统一的问题,所有图中的n_seq均为n_ctx,即可支持的最大输入序列长度。