Keras 单机多卡，多机多卡的使用方式笔记

最新推荐文章于 2022-04-11 14:20:19 发布

Julse

最新推荐文章于 2022-04-11 14:20:19 发布

阅读量1.2k

点赞数

分类专栏：学习笔记深度学习文章标签： leetcode python 算法

本文链接：https://blog.csdn.net/Julse/article/details/121474329

版权

学习笔记同时被 2 个专栏收录

121 篇文章 0 订阅

订阅专栏

深度学习

3 篇文章 0 订阅

订阅专栏

单机多卡，多机多卡的使用方式

官方教程：https://keras.io/guides/distributed_training/#singlehost-multidevice-synchronous-training

教程主要内容

分布式计算有两种，一种是数据并行，一种是模型并行
数据并行只需要修改少量代码
模型比较简单的话，并行数据即可
数据并行原理和实现

这里讨论数据并行实现原理

一个batch_size的数据分配到多个设备上面
每个设备独立计算，直到分配的数据计算完毕
合并各个设备上的模型参数，同步之后进行下一个epoch
用mirrored variable object 实现变量的同步，因此要把模型创建和编译的部分放在该类变量的作用域中

在这里插入图片描述

import tensorflow as tf
from tensorflow import keras


# Create a MirroredStrategy.
strategy = tf.distribute.MirroredStrategy()
print('Number of devices: {}'.format(strategy.num_replicas_in_sync))

# Open a strategy scope.
with strategy.scope():
  # Everything that creates variables should be under the strategy scope.
  # In general this is only model construction & `compile()`.
  model = Model(...)
  model.compile(...)

# Train the model on all available devices.
model.fit(train_dataset, validation_data=val_dataset, ...)

# Test the model on all available devices.
model.evaluate(test_dataset)

疑问

在局部数据训练完成之后进行的参数合并，是从得到的多个结果中，选择使loss变小的参数作为所有设备上的模型参数，再进入下一次epoch吗？

即是说，不同数据子集，相当于不同的数据分布，模型的初始参数位置不一样，得到的最低点（loss）不一样，选择使loss最小的参数作为这一个batch训练之后模型的参数

有点像mini_batch https://blog.csdn.net/qq_38343151/article/details/102886304

局部最优：如果是这样的话，是不是顺便解决了模型陷入局部最优的问题。
训练不充分：因为有多个初始化可能导致训练不充分？

Julse

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Keras 单机多卡，多机多卡的使用方式笔记

单机多卡，多机多卡的使用方式官方教程：https://keras.io/guides/distributed_training/#singlehost-multidevice-synchronous-training教程主要内容分布式计算有两种，一种是数据并行，一种是模型并行数据并行只需要修改少量代码模型比较简单的话，并行数据即可数据并行原理和实现这里讨论数据并行实现原理一个batch_size的数据分配到多个设备上面每个设备独立计算，直到分配的数据计算完毕合并各个设备上的模型
复制链接

扫一扫