自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

原创 LLM架构(2): Embedding(嵌入)解析

正如我在上一篇文章(关于Tokenizer)中提到的,ID token只是通过tokenizer.model将输入文本映射为词汇表中的整数ID,仅仅表示某个词的位置,本身并不包含语义信息。这表明Python解析的结果与预训练权重文件中的Embedding数据是相同的,进一步验证了Embedding的映射过程。本文仅解析Embedding的定义、可视化和提取过程,未涉及其训练方法。在LLaMA架构中,Embedding层并不重新训练,而是直接从预训练好的权重中根据ID token查找对应的向量表示。

2025-03-08 11:22:38 1957

原创 LLM架构(1): Tokenizer

本文将持续更新大语言模型(LLM)的架构解析。目前,大多数讨论将基于LLaMA架构展开,后续计划探索如何使用FPGA(现场可编程门阵列)实现LLaMA架构。以下是LLaMA架构的完整流程概览:LLaMA架构流程图图片来源LLaMA架构的处理流程从Tokenizer(分词器)开始。Tokenizer作为整个架构的起点,负责将原始输入文本转换为模型可处理的数字ID序列。这一过程奠定了后续计算的基础。

2025-03-07 19:00:59 1302

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除