注意技巧:
https://pytorch.org/docs/stable/multiprocessing.html
模型并行( model parallelism ):即把模型拆分放到不同的设备进行训练,分布式系统中的不同机器(GPU/CPU等)负责网络模型的不同部分 —— 例如,神经网络模型的不同网络层被分配到不同的机器,或者同一层内部的不同参数被分配到不同机器,如AlexNet的训练。
数据并行( data parallelism ):即把数据切分,输入到不同的机器有同一个模型的多个副本,每个机器分配到不同的数据,然后将所有机器的计算结果按照某种方式合并。
多进程最佳实践
torch.multiprocessing
是 Python 的 multiprocessing
多进程模块的替代品。它支持完全相同的操作,但对其进行了扩展,以便所有通过多进程队列