LLM可视化-CSDN博客

本文链接：https://blog.csdn.net/m0_64752471/article/details/142102131

LLM可视化

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
在这里插入图片描述

LLM可视化

LLM可视化案例：nanogpt

GitHub****地址：GitHub - bbycroft/llm-viz: 3D Visualization of an GPT-style LLM

在线体验地址：LLM Visualization

LLM可视化

该项目展示了一个GPT风格网络的工作实现的3D模型。也就是说，这是OpenAI的GPT-2、GPT-3（以及可能的GPT-4）中使用的网络拓扑结构。

显示的第一个具有工作权重的网络是一个微小的网络，用于对字母A、B和C的小列表进行排序。这是Andrej Karpathy的minGPT实现的演示示例模型。

渲染器还支持可视化任意大小的网络，并与较小的gpt2大小一起工作，尽管权重没有被下载（因为它是数百MB）

LLM可视化案例：nanogpt

它的目标很简单：接收一个包含六个字母的序列： C B A B B C 并将它们按字母顺序排序，即变成"ABBBCC"。我们称这些字母中的每一个为一个标记（token），模型的不同标记集合组成了它的词汇表：标记 A B C 索引 0 1 2 从这个表格中，每个标记都被分配一个数字，即它的标记索引。现在我们可以将这个数字序列输入模型中： 2 1 0 1 1 2 在3D视图中，每个绿色单元格代表一个正在处理的数字，每个蓝色单元格是一个权重。 -0.7 0.4 0.8 正在处理 -0.7 0.7 -0.1 权重序列中的每个数字首先被转换为一个48元素向量（为这个特定模型选择的大小）。这被称为嵌入（embedding）。然后，嵌入通过模型传递，经过一系列层，称为变换器（transformers），最终到达底部。

那么输出是什么呢？是序列中下一个标记的预测。因此，在第6个条目，我们得到了下一个标记是’A’、‘B’或’C’的概率。在这种情况下，模型非常确信下一个标记将是’A’。现在，我们可以将这个预测反馈到模型的顶部，并重复整个过程。在我们深入算法的复杂性之前，让我们先退后一步。

这个指南专注于推理，而不是训练，因此只是整个机器学习过程的一小部分。在我们的情况下，模型的权重已经被预先训练，我们使用推理过程生成输出。这直接在您的浏览器中运行。

这里展示的模型是GPT（生成式预训练Transformer）家族的一部分，可以描述为“基于上下文的标记预测器”。OpenAI于2018年推出了这个家族，其中有一些显著的成员，如GPT-2、GPT-3和GPT-3.5 Turbo，后者是广泛使用的ChatGPT的基础。它可能也与GPT-4有关，但具体细节仍然未知。

这个指南受到了minGPT GitHub项目的启发，这是由Andrej Karpathy创建的一个在PyTorch中实现的极简GPT。他的**YouTube系列《Neural Networks: Zero to Hero 》**和minGPT项目对本指南的制作提供了宝贵的资源。这里展示的玩具模型基于minGPT项目中的一个模型