调试FedAvg的过程实验结果

  • 首先跑动了只吃CPU
  • 要安装tensorflow-gpu
    • 出现权限不够,不知道是下面哪种情况导致的
      • Pycharm未关闭
      • 没有加——user
  • 然后再运行报错“缺少cudart64_110.dll”//意思就是缺少cuda11.0+
    • 原因是没有安装CUDA11.0+
  • 安装CUDA,注意自己N卡驱动的版本
  • AttributeError: module 'tensorflow' has no attribute 'variable_scope'
    • 原因就是1.0版本不能用2.0跑
    • tensorflow早已进入2.0时代,但是大部分代码还是在1.0时代创造的,修改代码换环境换安装包等等方法令人烦躁,还会引出一堆其他问题,因此给出修复大部分错误的简单解决方法:(暂未采用)
      • 使用tensorflow 2.0以上版本,并且安装tf_slim
      • 将import tensorflow as tf 改成import tensorflow.compat.v1 as tf(不要管ide的红线报错)import tf_slim as slim
      • 添加tf.disable_v2_behavior()到首行即可修复
    • 我直接重新装对应版本的tensorflow-gpu==1.13.1
      • 因为对于 1.15 及更早版本,CPU 和 GPU 软件包是分开的
    • 继续出现各种报错
      • 决定找到tensorflow1.13.1对应的CUDA8下载试试
      • 然后重装最低版本的显卡驱动试试
        • 然后发现自己的显卡出来的时候最低版本就是378了没有376,试试378
      • 决定conda10.0试试

  • 三个小时 才能跑完一轮实验
    • 缺少cv2:conda install opencv
    • 终于得以利用GPU运行

      • 占用率低还没搞清楚是为什么,猜测是每一小轮的数据量,minibatch值小?打算再重新读一边论文结合实践代码看看
    • 第零轮

    • 第一轮

    • 最后一轮

  • 然后尝试Pytorch运行实验,有上述的经验很容易就成功了,但是只跑CPU
    • 发现pytorch1.4.0需要的CUDA是10.1
    • 所以去安装CUDA10.1
    • 发现一个Windows可以多个CUDA并存
    • 并且CUDA版本和显卡驱动版本无关,只需要将显卡驱动版本更新到最新即可
    • 并且好像conda也可以安装 cudatoolkit=10.1 ???待验证
    • 检测pytorch
      • import torch
      • print(torch.cuda.is_available())
      • 重新配置环境,以后让tensorflow和pytorch虚拟环境分开配置
      • cudnn的zip拷贝到对应cuda下
      • 通过GPU跑通(速度比tensorflow快)

      • 实验结果
        • 第一轮

        • 最后一轮

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值