卸载背后的故事:
很久没有炼丹了,最近想重新炼丹,发现我用了三年的炼丹炉居然报错了,半年前还好好的。
另外,终端通过nvidia-smi
查看驱动匹配的cuda版本,但我终端显示Failed to initialize NVML: Unknown Error
,参考了几个博客都没有解决,有大佬会的请评论区。
可能是升级系统的时候显卡驱动也更新了。驱动升级时间23年11月28号。
最终狠心卸载重来吧!!!
1.查看匹配配置:
1.1. 查看显卡驱动版本
目的:根据驱动版本安装相关版本的cuda
步骤:NVIDIA控制面板=》系统信息=》显示
1.2.查看驱动匹配的cuda版本:
网址:https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/index.html
我的驱动时517.00,可以安装CUDA 11.1.X-11.8.X
1.3.查看cuda匹配的gpu版本pytoch
网址:https://pytorch.org/get-started/locally/
由于只有匹配CUDA11.8.或12.1,最终决定下载cuda11.8版本
另外,因为最新版本的pytorch需要python3.8以上版本的,而我的anaconda的python是3.7.0的,所以anaconda也要卸载重新安装。
2. 确定需要重新安装如下:
cuda11.8+相应版本的cudnn
anaconda
pytoch_cu11.8
3. 卸载&重新安装:
3.1 cuda:
3.1.1 卸载cuda
打开控制面板=》程序和功能
卸载:红色框里的内容。
保留:NVIDIA的图形驱动程序、NVIDIA Physx系统软件、NVIDIA GeForce Experience
卸载完如下:
3.1.2 安装cuda:
网址:https://developer.nvidia.com/cuda-toolkit-archive,选择11.8.0版本
路径是安装包解压路径,软件安装完毕后会自动删除
下面这个安装位置要记住
临时解压目录不要和cuda的安装路径一样,否则安装结束,会找不到安装目录
安装完成之后添加系统变量,环境变量-》系统变量-》Path
添加以下路径
3.1.3 检查CUDA是否安装成功
终端进入C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.8\bin路径
输入 nvcc –V
输出以下则表示cuda安装成功
3.2 cudnn
3.2.1 卸载 cudnn
cudnn 通常不提供标准的卸载程序,因为它是一系列的库文件和一个包含头文件的目录。要卸载 cudnn,通常只需要删除其文件:
直接删除C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.1文件夹,里面包含cudnn的文件。
3.2.2 安装cudnn
网址: https://developer.nvidia.com/rdp/cudnn-archive
我习惯不安装最新版本的,因为最新版本可能有bug,随便选个v8.9.5吧
下载需要登录NVIDIA,没有的读者需要自行注册。此处我直接登录~
下载后解压缩,得到如下
将这三个文件夹复制到C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.8中,并替换文件
3.2.3 检查cudnn是否安装成功
终端进入C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.8\extras\demo_suite
依次输入bandwidthTest.exe
和deviceQuery.exe
如果都能看到Result = PASS
,则代表成功
3.3. anaconda
3.3.1 卸载anaconda
控制面板=》卸载anacoda
网上也有说控制面板中卸载的卸不干净,但我好像没看到什么残留,就先如此吧。
3.3.2 安装anaconda
网址:https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/
anaconda安装包下载,不建议去官网下载,官网下载太慢了,推荐清华源下载。
不建议安装最新版本的,容易出错。
【我尝试过安装最新版本的,后面无法自动添加系统环境变量,接受自己手动添加的可以下最新版本】
3.3.3 检查anaconda是否安装成功
进入Anaconda Prompt
输入conda -V
如果输出conda版本则表示成功
输入python
可以正常进入,显示python3.11.5
3.3.4 创建虚拟环境
在Anaconda Powershell Prompt或者Anaconda Prompt中打开
依次输入
conda create -n 环境名称 python=版本号
conda activate 环境名称
#比如我的:
conda create -n zjm202403 python=3.11
conda activate zjm202403
输入conda env list
查看conda环境list
发现环境建在了C盘里,想改到D盘中
尝试网友的方法conda create --prefix=D:\anaconda3\envs\zjm202403 python=3.11
显示权限不够
网上没有能解决问题的办法,以后再说,有大佬会的评论区。
pycharm里链接到虚拟环境
3.4 pytorch
3.4.1 卸载pytorch
之前我一直在conda环境里炼丹的,整个conda卸载后pytorch自然也就没了
3.4.2 安装pytorch
网址:https://pytorch.org/get-started/locally/
之前我在安装pytoch时,嫌官网的太慢了,都会在后面加清华源-i https://pypi.tuna.tsinghua.edu.cn/simple
但这次下载pytorch_cu118我发现,如果加清华源,只能下载cp版本的,可能是清华源没有这个版本吧?
只能老老实实从官网下
在Anaconda Powershell Prompt或Anaconda Prompt中打开
依次输入
conda activate zjm202403 # 进入环境
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
3.4.3 查看pytoch是否安装成功
进入我的环境
依次输入
>>> import torch
>>> print(torch.__version__)
>>> print(torch.cuda.is_available())
看到cu118
和True
代表成功
炼丹炉已造好,炼丹师开始工作。