【研0日记】23.12.29

最新推荐文章于 2024-06-03 10:20:04 发布

dickyy666

最新推荐文章于 2024-06-03 10:20:04 发布

阅读量373

点赞数 9

分类专栏：读研日记文章标签：学习

本文链接：https://blog.csdn.net/m0_56654371/article/details/135299221

版权

读研日记专栏收录该内容

34 篇文章 0 订阅

订阅专栏

妈耶今天导大早上来了，吓死

感觉今天啥也没干，没啥要干的，也没啥动力，也没写开题报告

下午研究了一下shell，我是想实现预训练和训练先后自动跑，就不用我监督着他了，比如有一个run.sh

#run.sh

#!/usr/bin/env bash

bash pre_training.sh config_pretrain.py

bash training.sh config_train.py

然后他就可以先后执行这俩，跑完预训练自动跑训练

看了一些，感觉他们的意思是有多少命令就会顺序执行这些命令，否则要让程序 “等待上一条命令执行结束” 再执行下一条命令，然后找到了一个wait命令，可以等待所有或者特定pid的后台任务执行结束后再执行下一条命令

#run.sh

#!/usr/bin/env bash

bash pre_training.sh config_pretrain.py

wait

bash training.sh config_train.py

但是，实际测试的时候，我自己搞了几个小的test，我感觉不用写这个wait就可以实现我想要的那个效果，他会执行完bash test1.sh之后再执行bash test2.sh。感觉实际怎么样到时候可以试一下

然后今天，又改了一下那个clip做辅助分类器的，上次说用conv，但是感觉有点麻烦hhh，就还是换linear了，到时候再测试看看效果怎么样。反正也没干什么事情，就是又重新看了一下代码，然后细化了一下

然后还看了分布式训练的东西，有一些东西终于不模糊了，nnodes是节点数（机子数），nproc是进程数（gpu数，一般一个gpu就是一个进程，只是一般哈，而且我也没太明白这个进程是什么意思），nproc_per_node是每个节点的进程数（每个机子的gpu数），master_addr是0号主机ip地址，其他机子把数据传过去通信，master_port是主机端口，也一样用来通信，node_rank是节点的序号，从0开始，进程序号两种rank，RANK是所有进程的序号，1个gpu就一个进程，就一个RANK，LOCAL_RANK是每台机子进程的序号，world_size是所有进程的总数量

然后具体分布并行训练，有几个点

1、数据并行和模型并行

数据并行是把所有数据分散到不同gpu上，每个gpu都存有整个模型

模型并行是把模型分成不同部分，存在不同gpu上，每个gpu都能训练到同样的数据

2、基于参数服务器，基于规约

我不想打了

3、同步更新，异步更新，混合模式更新

我不想打了

然后这只是理论部分，明天你可以看一下代码具体是怎么实现的，然后还有之前看到的nccl，好像是一种gpu之间的通信方式，也去看看

明天：

开题报告，放假了要出去玩，还是早点写完吧，别拖到节后

分布式训练

dickyy666

关注

9
点赞
踩
9

收藏

觉得还不错? 一键收藏
1
评论
【研0日记】23.12.29

看了一些，感觉他们的意思是有多少命令就会顺序执行这些命令，否则要让程序 “等待上一条命令执行结束” 再执行下一条命令，然后找到了一个wait命令，可以等待所有或者特定pid的后台任务执行结束后再执行下一条命令。但是，实际测试的时候，我自己搞了几个小的test，我感觉不用写这个wait就可以实现我想要的那个效果，他会执行完bash test1.sh之后再执行bash test2.sh。下午研究了一下shell，我是想实现预训练和训练先后自动跑，就不用我监督着他了，比如有一个run.sh。
复制链接

扫一扫