模型训练
文章平均质量分 63
AI模型训练方法、技术
loong_XL
这个作者很懒,什么都没留下…
展开
-
huggingface accelerate 多机多卡DDP分布式训练案例
参考:https://www.bilibili.com/video/BV1jS411K72E/?spm_id_from=333.788&vd_source=34d74181abefaf9d8141bbf0d485cde7https://github.com/chunhuizhang/pytorch_distribute_tutorials/blob/main/tutorials/deepspeed_accelerate/accelerate_basics_scripts.pyhttps://www.cnb原创 2024-06-17 14:52:59 · 236 阅读 · 0 评论 -
分布式训练多机(节点)数据并行的数据划分DistributedSampler
参考:分布式训练数据看样子和模型一样,每个节点都要拷贝,注意路径也要一样;DistributedSampler是分配每个gpu上的数据索引值列表。原创 2024-03-24 09:49:11 · 99 阅读 · 0 评论 -
docker方式进行pytorch多机多卡分布式训练
docker ip共享与gpu指定1)ip共享docker网络有多种,这里选择host直接用宿主机的ip2)指定gpu。原创 2024-03-21 11:20:34 · 397 阅读 · 0 评论 -
torchrun、 torch.distributed.launch 多节点分布式训练使用案例
数据并行分布式图:梯度更新分布式训练参数含义:nnodes:节点的数量,通常一个节点对应一个主机,方便记忆,直接表述为主机node_rank:节点的序号,从0开始nproc_per_node:一个节点中显卡的数量-master_addr:master节点的ip地址,也就是0号主机的IP地址,该参数是为了让 其他节点 知道0号节点的位,来将自己训练的参数传送过去处理。原创 2024-03-14 15:46:52 · 810 阅读 · 0 评论