- 博客(2)
- 收藏
- 关注
原创 LLM架构(2): Embedding(嵌入)解析
正如我在上一篇文章(关于Tokenizer)中提到的,ID token只是通过tokenizer.model将输入文本映射为词汇表中的整数ID,仅仅表示某个词的位置,本身并不包含语义信息。这表明Python解析的结果与预训练权重文件中的Embedding数据是相同的,进一步验证了Embedding的映射过程。本文仅解析Embedding的定义、可视化和提取过程,未涉及其训练方法。在LLaMA架构中,Embedding层并不重新训练,而是直接从预训练好的权重中根据ID token查找对应的向量表示。
2025-03-08 11:22:38
1957
原创 LLM架构(1): Tokenizer
本文将持续更新大语言模型(LLM)的架构解析。目前,大多数讨论将基于LLaMA架构展开,后续计划探索如何使用FPGA(现场可编程门阵列)实现LLaMA架构。以下是LLaMA架构的完整流程概览:LLaMA架构流程图图片来源LLaMA架构的处理流程从Tokenizer(分词器)开始。Tokenizer作为整个架构的起点,负责将原始输入文本转换为模型可处理的数字ID序列。这一过程奠定了后续计算的基础。
2025-03-07 19:00:59
1302
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅