Transformer/GPT内部结构可视化

lty12306

已于 2023-12-11 17:27:24 修改

阅读量978

点赞数 9

文章标签： transformer gpt 深度学习

于 2023-12-11 13:55:45 首次发布

本文链接：https://blog.csdn.net/m0_52140105/article/details/134923230

版权

本文介绍了如何通过nano-gpt可视化工具理解Transformer/GPT的内部结构，并详细计算了其超参数，发现总参数数量与官方数据有出入，期待读者反馈。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Transformer/GPT内部结构可视化及参数计算

这里分享一个可视化transformer/gpt内部结构并支持交互式操作的网站，对于搞不懂transformer里面复杂矩阵变换的小白来说非常友好，非常直观易懂，能够帮助快速理解底层原理。
在这里插入图片描述

在这里插入图片描述

对于链接中nano-gpt的具体参数，我尝试计算了一下：
我们有以下超参数：

词嵌入矩阵大小：vocab_size * embedding_dim = 144
位置编码：max_sequence_length * embedding_dim = 528
多头自注意力层：((embedding_dim * head_dim + bias) × num_heads * 3+embedding_dim * embedding_dim + bias)num_layers=[(4816+16)9+4848+48]*3=28224
前馈神经网络：(embedding_dim * ff_hidden_dim+bias+ff_hidden_dim * embedding_dim + bias)=(48484+484+484*48+48)*3=56016
输出层：embedding_dim * vocab_size=48*3=144
总共参数：85056
计算出的参数比给出的参数85584少了528，不知道原因在哪，希望评论区有知道的可以批评指正。