从零开始大模型
文章平均质量分 96
从零开始一步一步学习大模型,手写代码,深入底层
尔染君子
做一个在硬件和软件上都是能够全能的电子信息工程师,YanQiang
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
从零开始大模型之实现GPT模型
1.数据预处理:原始数据进行词元化,以及通过,依据词汇表生成ID编号,对ID编号随机生成嵌入向量,特别注意的是嵌入向量事实上也是一个权重,通过反向传播进行更新。2.掩码多头注意力机制:增加掩码多头注意力机制,其中增加掩码机制是为了确定序列的输出的因果关系,多头注意力机制是为了对不同路径的来源数据进行上下文联系。3.LLM架构transform块:进行层归一化,GELU激活函数,前馈神经网络,快捷连接。原创 2025-08-16 20:29:16 · 1241 阅读 · 0 评论 -
从零开始大模型之编码注意力机制
本文讲述了可训练权重+dropout掩码+多头的自注意力机制原创 2025-07-26 22:10:42 · 1209 阅读 · 0 评论 -
从零开始学习大模型之文本数据处理
本章介绍了大模型的数据准备工作,从分词,编号,对编号数据进行格式化加载,再到词嵌入,以及位置嵌入,最终构成了输入嵌入原创 2025-07-22 22:51:50 · 920 阅读 · 0 评论
分享