从Karpathey那里获得灵感，推特上这位工程师居然可视化了GPT的工作流程！

最新推荐文章于 2024-08-30 16:10:50 发布

zenRRan

最新推荐文章于 2024-08-30 16:10:50 发布

阅读量569

点赞数 6

文章标签： gpt

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_27590277/article/details/134814078

版权

深度学习自然语言处理原创
作者：pp

OpenAI创始人之一的Karpathy之前曾亲自下场教大家如何动手学习搭建一个小号的GPT模型--minGPT。而最近，推特上一位叫做Brendan Bycroft的工程师从Karpathy那里汲取到了灵感，居然将GPT在推理时候的数学过程进行了可视化（以下简称LLM-viz），还做成了可以交互的网站（https://bbycroft.net/llm）！任何人都可以轻松地跟随动画和一旁的讲解，学习到GPT内部的工作原理。

自回归推理

GPT是Transformer中Decoder-only这一类模型的代表，采用Next token prediction的方式进行自回归推理。

拆解GPT

Transformer block里的layer norm, multi-head attention背后的点积，矩阵乘法等操作也都统统被详细拆解，一旁的注释也都恰到好处。文图交互，点击左侧的每个部分的模块，拖动滑块，右侧相应的成分便会开始进行计算。

计算如何进行

通过LLM-viz，可以看见GPT推理流程的全过程，包括每个计算发生的位置，计算的组成和复杂程度，每个tensor的维度和权值，应有尽有！

GPT的输出部分

最后的输出部分，作者配合动画解释了softmax，temperature，logits计算以及token选择等，语言简明扼要。

整个LLM可视化对于GPT推理整个流程可以说是从头到尾全覆盖了，对于想对GPT推理过程一探究竟的小伙伴是个非常合适的学习工具。随着OpenAI逐渐转向CloseAI，人们也更加关注LLM生成的内容，不再溯源这一切是如何发生的。ChatGPT也许很复杂，但其本质也可以很简单。

参考资料

https://bbycroft.net/llm
https://cameronrwolfe.substack.com/p/language-model-training-and-inference

备注：昵称-学校/公司-方向/会议(eg.ACL)，进入技术/投稿群

id：DLNLPer，记得备注呦

关注

6
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
从Karpathey那里获得灵感，推特上这位工程师居然可视化了GPT的工作流程！

深度学习自然语言处理原创作者：ppOpenAI创始人之一的Karpathy之前曾亲自下场教大家如何动手学习搭建一个小号的GPT模型--minGPT。而最近，推特上一位叫做Brendan Bycroft的工程师从Karpathy那里汲取到了灵感，居然将GPT在推理时候的数学过程进行了可视化（以下简称LLM-viz），还做成了可以交互的网站（https://bbycroft.net/llm）！任何人...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。