自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 HF transformers中Deepspeed分析

看model中的param_names,可以看到,一共1+32*12+2=387个参数模块,所以看到上面的两个是按第193个节点来划分的,地中第193个节点各占一部分?还有两个参数,一个是params_in_partition另一个是params_not_in_partition代表在和不在这个分区上的参数。注意,transformers里集成的deepspeed,有些特性不完全支持,这里有集成的说明以及很多实用经验的介绍。index1的model.optimizer,可以看到。调试torchrun。

2024-09-19 23:32:56 288

原创 deepspeed&zero及大模型显存占用

在训练期间,激活会占用大量内存。现看baseline,即没有优化的时候,多卡数据并行的方式:每个GPU都拿到模型的全部,包括优化器参数、模型参数,梯度,然后各个GPU拿自己的数据计算完的前向计算及反向梯度计算之后(这个时候算的是自己那部分数据对应的),会做一次gather的操作,可以理解为某一个GPU充当一个master,把各个GPU算的梯度一起拿过来,合成一个全局的梯度。* 模型梯度算出来之后,要用梯度来更新模型参数的时候,会用fp32来进行更新,也就是说,原始的参数有一份一直存着的fp32的副本。

2024-08-24 16:55:14 596

原创 优化器Optimizer

其中,g(t) 是当前时间步的梯度,v(t) 是当前的动量,β是动量因子,通常设为0.9。

2024-08-24 09:48:55 671 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除