Transformer/GPT内部结构可视化

Transformer/GPT内部结构可视化及参数计算

这里分享一个可视化transformer/gpt内部结构并支持交互式操作的网站,对于搞不懂transformer里面复杂矩阵变换的小白来说非常友好,非常直观易懂,能够帮助快速理解底层原理。
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

链接nano-gpt可视化

参数计算

对于链接中nano-gpt的具体参数,我尝试计算了一下:
我们有以下超参数:

  • vocab_size=3:词汇表大小
  • embedding_dim=48:词嵌入维度
  • num_heads=3:注意力头数
  • ff_hidden_dim=144:前馈神经网络隐藏层维度
  • head_dim =16:每个注意力头维度
  • bias:权重对应偏置维度
  • num_layers=3:解码器层数
  • max_sequence_length=11:最大编码词数
  1. 词嵌入矩阵大小:vocab_size * embedding_dim = 144
  2. 位置编码:max_sequence_length * embedding_dim = 528
  3. 多头自注意力层:((embedding_dim * head_dim + bias) × num_heads * 3+embedding_dim * embedding_dim + bias)num_layers=[(4816+16)9+4848+48]*3=28224
  4. 前馈神经网络:(embedding_dim * ff_hidden_dim+bias+ff_hidden_dim * embedding_dim + bias)=(48484+484+484*48+48)*3=56016
  5. 输出层:embedding_dim * vocab_size=48*3=144
  6. 总共参数:85056
    计算出的参数比给出的参数85584少了528,不知道原因在哪,希望评论区有知道的可以批评指正。
  • 9
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值