- 博客(1)
- 收藏
- 关注
原创 horovod + tf.train.CheckpointSaverHook
最近在做分布式模型训练相关工作,利用到了horovod框架,当horovod+tf.train.MonitoredTrainingSession+tf.train.CheckpointSaverHook时,会出现horovod rank抢占之类的报错。并且在log中多次出现Create CheckpointSaverHook的信息。 并且由于MonitoredTrainingSession的...
2018-11-02 17:30:44 1656
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人