dlbench分布式模型训练

dlbench git地址:https://github.com/hclhkbu/dlbench.git

cd到dlbench中,benchmark.py文件即为测试需要的中枢文件,采用python benchmark.py -config configfile命令即可开始训练,所得到的logs放在logs下面,logs分为两部分:收敛迭代速度和显卡的使用情况(相当于多次使用nvidia-smi命令)

configfile放在confige文件夹下面,有一个tensorflow的样例,可以看到具体设置的参数,在legacy里含有各种框架的config例子,可以根据需要调整

Config文件包含了<network type>; <network name>;  <device id>; <device count>;  <batch size>;  <number of epochs>;  <epoch size>; <Learning rate>这几项,network type就是测试的网络类型,network name就是测试的具体网络,后面的参数都可以根据情况自定义

正常情况下,使用中枢文件就可以做测试,然后查看logs的文件,但是如果测试不成功(如tensorflow,log文件里发现报错),可以手动cd到对应框架目录下,跑对应的文件。

Benchmark.py最终调用的文件位于tools里,tools下面含有多个框架,框架下对应rnn、cnn、fc的各种网络。

可以利用benchmark.py一次串行跑多个参数下的网络(会根据config自动跑,并写入log),也可以手动跑,或者手动在tools网络中加入写log的代码等。为了便于比较,我们优先跑一下resnet的网络,batch size 128,epoch 4吧,学习一下怎么用这个。

这个是我对这份代码使用方法的个人理解,如果大家发现有什么不对的地方,一块探讨。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值