有一较耗时的python程序,需要压缩计算时间,但由于内部数据量比较少,循环次数较多,GPU不容易使上力气,还得看CPU。内部优化太头疼了,然后就寄希望与多机器并行。
由于内部有类似于寻找最优点算法,每次运行耗时都会有不同,现在给出十次计算在我笔记本上耗时。
单纯for循环,三四百秒
multiprocessing 一百来秒
ray 也100来秒
现考虑如何利用ray进行多节点运算
查教程,给出下列命令
head 节点上
ray start --head --node-ip-address 192.168.20.178
worker节点上
ray start --address 192.168.20.178:6379
windows上第一次部署worker会有个报错,需要添加一个环境变量
head端没有问题了,但是worker node 出错
然后我把head与worker两台机器换了一下,报错变了,worker端需要用管理员身份运行cmd.
这就很明晰了,需要统一版本
看到这,很是激动,成功了?并没有,显示有两个节点了,但是当运行任务的时候worker node总会莫名的死掉,先记录到这,后面继续踩坑。