自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

原创 nanoGPT源码浅析(下)

使用指定后端初始化分布式进程组,获取当前进程rank、local_rank(GPU标识符)、world_size(进程总数),添加设置device、主进程判断与设置等,对每个进程生成不同偏移量(初始化随机),最后调整梯度累积步数(原始步数/进程数,处理相同量梯度更新)最后清空梯度,释放内存。经前文判断和设置后计算迭代标记数(梯度累积步数、进程总数、批大小、块大小相乘),根据CPU或GPU创建输出目录、上下文,设置随机种子(固定值加随机种子偏移量)数据类型等属性,最后加载训练集和测试集数据并做内存映射。

2024-01-22 11:13:45 896

原创 nanoGPT源码浅析(上)

子模块包括词嵌入层(Word Token Embedding,twe,用于映射输入词向量),位置嵌入层(Positional Embedding,wpe,即位置编码),Drop(不赘述),基本块列表h(由多个基本块组成的列表,通过循环创建了n_layer 个基本块,归一层(ln_f,LayerNorm)。超参数有block_size(块)、vocab_size(词表大小)、n_layer(基本块层数)、n_head(注意力头数)n_embd(特征维度)、Dropout(丢弃率)、bias(是否偏置)等。

2024-01-22 09:39:58 1205

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除