关于扩散模型（Diffusion Models）中的P2-weighting使用防坑

Daniel大人

已于 2022-06-28 10:14:24 修改

阅读量919

点赞数 1

分类专栏：小知识文章标签：深度学习人工智能扩散模型

于 2022-05-19 11:56:22 首次发布

本文链接：https://blog.csdn.net/elysion_daniel/article/details/124860117

版权

小知识专栏收录该内容

8 篇文章 0 订阅

订阅专栏

前几天用了一个扩散模型，P2，主要还是老板想放弃stylegan和styleclip那一套，想用扩散模型来生成图片。查找新论文，找到了这个，并且还开源了。

这个项目测试训练问题都不大，直到我需要多卡训练的时候，发现了大问题。这个项目默认是单卡的，但是需要多卡的时候，发现其内有ddp相关设置，但是直接用torch的那一套，设置nproc_per_node什么的，这样是不可以的。参考readme说的，他严重依赖于guided-diffusion这个项目，跳转过去之后，他使用mpi来进行分布式的，所以只需要在训练命令前加上mpiexec -n N，N 为显卡数就可以了，如下

mpiexec -n 4 python XXX.py --XXX XXX

当然实际上是，我发现他用了mpi4py这个库，并且设置dist的函数，都不用传参数过去的，就觉得应该不是我熟知的方法，所以百度了mpi4py，结果果然是我孤陋寡闻了。

但是这样还没完，这么做了后，多卡多进程都OK，但是执行会报错，类似这种错“unhandled cuda error, NCCL version 2.7.8”，根据网上查的方法，最终解决是，在设置dist的地方，其设置某块的代码是使用os的CUDA_VISIBLE_DEVICES这样设置的，改为torch.cuda.set_device(device)这样就可以了，如下

# os.environ["CUDA_VISIBLE_DEVICES"] = f"{MPI.COMM_WORLD.Get_rank() % GPUS_PER_NODE}"
torch.cuda.set_device(MPI.COMM_WORLD.Get_rank())

2.这个项目的issue提出有个问题，在测试生成图片的时候，分批生成，每批会把上一批的覆盖掉，作者已经解答了。

3.训练或者测试的时候会提示一个库不存在无法调用什么的，但是一看，明明就在本地，难道还要pip安装不成。我的解决方法是，在代码中，调用前，先执行sys.path.append('.')就可以了。

4.不能resume权重，通过查看issue，guided的这个项目中，有人说了，在加载权重的代码里面，有个判断local_rank是否为0的操作，将这个注释就可以了，原理不清楚，反正可以加载了，执行中，可能还会有类似问题，可以在报错的附近位置，执行类似操作就可以了。

如果后面还有什么坑，再补充完善。

Daniel大人

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
2
评论
关于扩散模型（Diffusion Models）中的P2-weighting使用防坑

前几天用了一个扩散模型，P2，长话短说，这个项目测试训练都没碰到啥问题，直到我需要多卡训练的时候，这个项目默认是单卡的，但是需要多卡的时候，发现其内有ddp相关设置，但是直接用torch的那一套，设置nproc_per_node什么的，这样是不可以的。参考项目说的，他严重依赖于guided-diffusion这个项目，然后这个项目说了，他使用mpi来进行分布式的，所以只需要在训练命令前加上mpiexec -n N，N 为显卡数就可以了。这样还没完，这么做了后，会报错，unhandled cuda err
复制链接

扫一扫

专栏目录