【研0日记】23.12.29

妈耶今天导大早上来了,吓死

感觉今天啥也没干,没啥要干的,也没啥动力,也没写开题报告


下午研究了一下shell,我是想实现预训练和训练先后自动跑,就不用我监督着他了,比如有一个run.sh

#run.sh

#!/usr/bin/env bash

bash pre_training.sh config_pretrain.py

bash training.sh config_train.py

然后他就可以先后执行这俩,跑完预训练自动跑训练

看了一些,感觉他们的意思是有多少命令就会顺序执行这些命令,否则要让程序 “等待上一条命令执行结束” 再执行下一条命令,然后找到了一个wait命令,可以等待所有或者特定pid的后台任务执行结束后再执行下一条命令

#run.sh

#!/usr/bin/env bash

bash pre_training.sh config_pretrain.py

wait

bash training.sh config_train.py

但是,实际测试的时候,我自己搞了几个小的test,我感觉不用写这个wait就可以实现我想要的那个效果,他会执行完bash test1.sh之后再执行bash test2.sh。感觉实际怎么样到时候可以试一下


然后今天,又改了一下那个clip做辅助分类器的,上次说用conv,但是感觉有点麻烦hhh,就还是换linear了,到时候再测试看看效果怎么样。反正也没干什么事情,就是又重新看了一下代码,然后细化了一下


然后还看了分布式训练的东西,有一些东西终于不模糊了,nnodes是节点数(机子数),nproc是进程数(gpu数,一般一个gpu就是一个进程,只是一般哈,而且我也没太明白这个进程是什么意思),nproc_per_node是每个节点的进程数(每个机子的gpu数),master_addr是0号主机ip地址,其他机子把数据传过去通信,master_port是主机端口,也一样用来通信,node_rank是节点的序号,从0开始,进程序号两种rank,RANK是所有进程的序号,1个gpu就一个进程,就一个RANK,LOCAL_RANK是每台机子进程的序号,world_size是所有进程的总数量

然后具体分布并行训练,有几个点

1、数据并行和模型并行

数据并行是把所有数据分散到不同gpu上,每个gpu都存有整个模型

模型并行是把模型分成不同部分,存在不同gpu上,每个gpu都能训练到同样的数据

2、基于参数服务器,基于规约

我不想打了

3、同步更新,异步更新,混合模式更新

我不想打了

然后这只是理论部分,明天你可以看一下代码具体是怎么实现的,然后还有之前看到的nccl,好像是一种gpu之间的通信方式,也去看看


明天:

开题报告,放假了要出去玩,还是早点写完吧,别拖到节后

分布式训练

  • 9
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值