Windows系统下阿里云GPU服务器从搭建到tensorflow训练

最新推荐文章于 2023-03-16 20:30:04 发布

5astill

最新推荐文章于 2023-03-16 20:30:04 发布

阅读量1.7k

点赞数 1

文章标签： tensorflow gpu python cuda 阿里云

本文链接：https://blog.csdn.net/dd5astill/article/details/108032621

版权

基本框架

阿里云GPU服务器，实例为异构计算GPU/FPGA/NPU > GPU虚拟化型，4vcpu，23GiB内存的GPU轻量型，镜像选择Windows Server 2016 中文版预装GRID驱动，添加一个数据盘（D:）。
这个镜像本身带有GRID驱动，不需要自己安装。

安装软件

下载Chrome
1.打开实例，在D盘中安装anaconda3，添加环境变量；打开prompt，添加国内源：
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/win-64

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/noarch

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/win-64

2.查看该实例支持的cuda版本：桌面右键打开NVIDIA控制面板，点击系统信息，选择“组件”，可以看到NVCUDA.DLL行右侧版本，10.1.120。推荐在cuda-toolkit-archive选择对应版本下载，一定要选择对应版本。(官网下载通道好像只能下载最新版本)。

安装时选择自定义安装：取消勾选GeForce Experience ，如果电脑上本身就有Visual Studio Integration，要将这个取消勾选，避免冲突。取消勾选Driver comonents，Display Driver这一行，左侧显示的是Cuda本身包含的驱动版本，如果你电脑目前安装的驱动版本号新于Cuda本身自带的驱动版本号，那一定要把这个勾去掉，否则会安装失败(相同就不用取勾了)。推荐默认路径安装。

检查：打开路径 C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.1\bin ，如果有nvcc.exe就说明CUDA安装已成功。
参考 CUDA10.0、CUDNN（和cuda对应版本），tensorflow2.0在windows下的安装及配置
添加环境变量至所有环境变量顶部。
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.1\bin
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.1\libnvvp
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.1\include

3.下载对应版本cudnn，须先注册登录官网，在网页顶部PLATFORMS处选择cuDNN，填写应用问卷后会提供版本选择，选择10.1对应版本中的Windows 64位系统下载。（该服务器系统是Windows server 2016，一般cuDNN系统选择都是win7和win10，通过这个路径选择的10.1版本是有Windows系统的）
4.cudnn压缩包解压后，将其中include，bin，lib/x64中的内容分别移动到C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.1中的include，bin，lib/x64文件夹中。
5.检查：打开powershell，输入nvcc -V，应输出cuda版本号。
6.安装tensorflow-gpu（如果在虚拟环境中安装先新建虚拟环境）
7.tensorflow各个版本的CUDA以及Cudnn版本对应关系
8.在环境变量中添加C:\Program Files\NVIDIA Corporation\NVSMI路径可以在cmd中使用nvidia-smi命令查看GPU信息。

Jupyter Notebook相关操作

1.添加虚拟环境

1.1 通过已有的虚拟环境包

将压缩包解压到D:\anaconda\envs中，打开prompt，输入D:可以切换到D盘，再cd到envs文件夹中，添加环境变量，输入conda activate [your_env_name]，即可切换到虚拟环境中。
conda env list检查是否添加成功

1.2 通过prompt新建新的虚拟环境

conda create -n [your_env_name] python=x.x

1.3 在Jupyter Notebook中增加kernel

切换到虚拟环境中，输入conda install ipykernel
如果无法安装，也可以尝试在base环境下使用conda install -n your_env_name ipykernel

再输入python -m ipykernel install --user --name [your_env_name] --display-name “Python [conda env:your_env_name]”

其中：
①[your_env_name] 是虚拟环境名称
②Python [conda env:your_env_name]：将是在notebook中看到的名称。

1.4 删除虚拟环境

conda remove -n [your_env_name] --all

1.5 whl文件安装第三方库

cd [whl文件所在路径]

pip install xxx.whl

2.检查GPU使用

import tensorflow as tf
print(tf.test.gpu_device_name())

如果输出空字符串，则GPU调用失败，若不是空字符串，如“/device:GPU:0”则调用成功。

Spyder相关操作

在prompt中切换到虚拟环境，输入conda install spyder进行Spyder的安装。安装后在虚拟环境下输入Spyder即可运行。

其他服务器细节参考阿里云创建配备NVIDIA GPU的实例

5astill

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
Windows系统下阿里云GPU服务器从搭建到tensorflow训练

目录基本框架安装软件Jupyter Notebook相关操作1.添加虚拟环境1.1 通过已有的虚拟环境包1.2 通过prompt新建新的虚拟环境1.3 在Jupyter Notebook中增加kernel1.4 删除虚拟环境2.检查GPU使用Spyder相关操作基本框架阿里云GPU服务器，实例为异构计算GPU/FPGA/NPU > GPU虚拟化型，4vcpu，23GiB内存的GPU轻量型，镜像选择Windows Server 2016 中文版预装GRID驱动，添加一个数据盘（D:）。这个镜像本身
复制链接

扫一扫