- 首先跑动了只吃CPU
- 要安装tensorflow-gpu
- 出现权限不够,不知道是下面哪种情况导致的
- Pycharm未关闭
- 没有加——user
- 出现权限不够,不知道是下面哪种情况导致的
- 然后再运行报错“缺少cudart64_110.dll”//意思就是缺少cuda11.0+
- 原因是没有安装CUDA11.0+
- 安装CUDA,注意自己N卡驱动的版本
- AttributeError: module 'tensorflow' has no attribute 'variable_scope'
- 原因就是1.0版本不能用2.0跑
- tensorflow早已进入2.0时代,但是大部分代码还是在1.0时代创造的,修改代码换环境换安装包等等方法令人烦躁,还会引出一堆其他问题,因此给出修复大部分错误的简单解决方法:(暂未采用)
- 使用tensorflow 2.0以上版本,并且安装tf_slim
- 将import tensorflow as tf 改成import tensorflow.compat.v1 as tf(不要管ide的红线报错)import tf_slim as slim
- 添加tf.disable_v2_behavior()到首行即可修复
- 我直接重新装对应版本的tensorflow-gpu==1.13.1
- 因为对于 1.15 及更早版本,CPU 和 GPU 软件包是分开的
- 继续出现各种报错
- 决定找到tensorflow1.13.1对应的CUDA8下载试试
- 然后重装最低版本的显卡驱动试试
- 然后发现自己的显卡出来的时候最低版本就是378了没有376,试试378
- 决定conda10.0试试
- 三个小时 才能跑完一轮实验
- 缺少cv2:conda install opencv
- 终于得以利用GPU运行
- 占用率低还没搞清楚是为什么,猜测是每一小轮的数据量,minibatch值小?打算再重新读一边论文结合实践代码看看
- 第零轮
- 第一轮
- 最后一轮
- 然后尝试Pytorch运行实验,有上述的经验很容易就成功了,但是只跑CPU
- 发现pytorch1.4.0需要的CUDA是10.1
- 所以去安装CUDA10.1
- 发现一个Windows可以多个CUDA并存
- 并且CUDA版本和显卡驱动版本无关,只需要将显卡驱动版本更新到最新即可
- 然后调整使用不同版本的CUDA需要调整系统环境变量
- 并且好像conda也可以安装 cudatoolkit=10.1 ???待验证
- 检测pytorch
- import torch
- print(torch.cuda.is_available())
- 重新配置环境,以后让tensorflow和pytorch虚拟环境分开配置
- cudnn的zip拷贝到对应cuda下
- 通过GPU跑通(速度比tensorflow快)
- 实验结果
- 第一轮
- 最后一轮
- 第一轮
调试FedAvg的过程实验结果
最新推荐文章于 2023-07-29 14:31:35 发布