先来看最终效果
两块卡GPU的利用率都会占满,训练速度会肉眼可见的提升
在此之前使用python的os库自带的GPU分配,代码如下
os.environ["CUDA_DEVICE_ORDER"] = "PCI_BUS_ID" # 按照PCI_BUS_ID顺序从0开始排列GPU设备
os.environ["CUDA_VISIBLE_DEVICES"] = "1,0" # 设置当前使用的GPU设备
如果只使用这两行代码会出现仍然是单块卡的占用率跑满,另一块卡占用率为0,这种情况并没有真正的将每一个batchsize的数据平分给两块卡,而是简简单单的占用了两个显存。由于深受batchsize过大导致的OOM痛苦,所以查了keras的官方文档发现了multi_gpu_model这个函数,当然还有多分支设备并行的方法,目前还没用到,用到之后再写。
keras官方给了分配多显卡的函数multi_gpu_model,简单来说就是一行代码
from keras.utils import multi_gpu_model
model = multi_gpu_model(ori_model, gpus=2)
针对keras不同的版本可能import的方式不相同,具体方式可以自行百度。亲测tensorflow-gpu=1.4.0 keras=2.1.5(不使用官方对应版本2.0.8的原因是2.0.8版本并未找到此函数)以及tensorflow-gpu=