调试FedAvg的过程实验结果

最新推荐文章于 2023-07-29 14:31:35 发布

Zh1N1an

最新推荐文章于 2023-07-29 14:31:35 发布

阅读量189

点赞数

分类专栏：实践笔记零零碎碎文章标签： tensorflow python 人工智能

本文链接：https://blog.csdn.net/weixin_42303403/article/details/129336985

版权

零零碎碎同时被 2 个专栏收录

9 篇文章 0 订阅

订阅专栏

实践笔记

8 篇文章 0 订阅

订阅专栏

首先跑动了只吃CPU
要安装tensorflow-gpu
- 出现权限不够，不知道是下面哪种情况导致的
  - Pycharm未关闭
  - 没有加——user
然后再运行报错“缺少cudart64_110.dll”//意思就是缺少cuda11.0+
- 原因是没有安装CUDA11.0+
安装CUDA，注意自己N卡驱动的版本
AttributeError: module 'tensorflow' has no attribute 'variable_scope'
- 原因就是1.0版本不能用2.0跑
- tensorflow早已进入2.0时代，但是大部分代码还是在1.0时代创造的，修改代码换环境换安装包等等方法令人烦躁，还会引出一堆其他问题，因此给出修复大部分错误的简单解决方法：（暂未采用）
  - 使用tensorflow 2.0以上版本，并且安装tf_slim
  - 将import tensorflow as tf 改成import tensorflow.compat.v1 as tf（不要管ide的红线报错）import tf_slim as slim
  - 添加tf.disable_v2_behavior()到首行即可修复
- 我直接重新装对应版本的tensorflow-gpu==1.13.1
  - 因为对于 1.15 及更早版本，CPU 和 GPU 软件包是分开的
- 继续出现各种报错
  - 决定找到tensorflow1.13.1对应的CUDA8下载试试
  - 然后重装最低版本的显卡驱动试试
    - 然后发现自己的显卡出来的时候最低版本就是378了没有376，试试378
  - 决定conda10.0试试
三个小时才能跑完一轮实验
- 缺少cv2：conda install opencv
- 终于得以利用GPU运行
  - 占用率低还没搞清楚是为什么，猜测是每一小轮的数据量，minibatch值小？打算再重新读一边论文结合实践代码看看
- 第零轮
- 第一轮
- 最后一轮
然后尝试Pytorch运行实验，有上述的经验很容易就成功了，但是只跑CPU
- 发现pytorch1.4.0需要的CUDA是10.1
- 所以去安装CUDA10.1
- 发现一个Windows可以多个CUDA并存
- 并且CUDA版本和显卡驱动版本无关，只需要将显卡驱动版本更新到最新即可
- 然后调整使用不同版本的CUDA需要调整系统环境变量
  - Windows下CUDA多版本共存_多个cuda版本共存_花花少年的博客-CSDN博客
- 并且好像conda也可以安装 cudatoolkit=10.1 ???待验证
- 检测pytorch
  - import torch
  - print(torch.cuda.is_available())
  - 重新配置环境，以后让tensorflow和pytorch虚拟环境分开配置
  - cudnn的zip拷贝到对应cuda下
  - 通过GPU跑通（速度比tensorflow快）
  - 实验结果
    - 第一轮
    - 最后一轮