【MindSpore】DCPUE网络性能优化 -- GPU训练篇

问题描述

  1. 训练条件:

     Linux Euler OS x86;
     8 显卡;
     物理 CPU 2;
     每个物理 CPU 中的核数 26;
     逻辑 CPU 104;
     MindSpore 1.2.0
     TensorFlow 1.15.0
    

    image.png

  2. GPU 训练时长

     MindSpore: 1:58
     TensorFlow: 1:04
    
  3. 优化目的

    在相同条件下,使用 MindSpore 框架训练网络的时长 小于或等于 使用 TensorFlow 框架训练的时长

问题分析

  1. 该网络为了防止过拟合,会基于同一模型同时训练多个神经网络。通过阅读代码,发现无论是 CPU 训练还是 GPU 训练,在训练多个神经网络时,会给每一个神经网络绑定一个逻辑 CPU 进行训练。

  2. 监控 GPU 训练过程,发现训练时,被绑定的逻辑 CPU 资源占用率一直为100%,据此推测是网络训练过程中的一些与 CPU 有关的操作耗资源太大,导致训练总时长增加。

    image.png

  3. 关闭代码中,每个网络绑定一个逻辑 CPU 进

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值