文章目录
Win + Linux双系统安装
淘宝花30块踩坑…
https://mirrors.tuna.tsinghua.edu.cn/ubuntu-releases/jammy/ubuntu-22.04.2-desktop-amd64.iso
制作启动盘
在windows上压缩100gb空间,Refus制作启动盘
引导黑屏后注意用hdmi线(不要用dp线,hdmi是两个缺口,dp线是一个),主机箱上下两个接口都试试。一个是主板的,一个是显卡的
进入ubuntu后创建分区时,先删除那100GB的分区(点那个-号),然后继续,选第一个选项与windows共存
如果重新回到windows分辨率改不了的话,下载一个驱动大师更新下驱动即可
sudo gedit /etc/modprobe.d/blacklist.conf
加参数到最底下回车另起一行内容为
blacklist nouveau
options nouveau modeset=0
保存再终端更新内核命令 终端输入
sudo update-initramfs -u
sudo apt update
sudo apt install gcc g++ make
然后好了以后重启电脑
百度nvidia 官网去下对应显卡版本的驱动https://www.nvidia.cn/drivers/results/200481/举例(下面XXX是版本的意思) NVIDIA-Linux-x86_64-440.run (384或者440都可以版本里面的)下好的文件放在 主文件夹 或者说叫home 目录下
先按Ctrl + Alt + F3到控制台,关闭当前图形环境 输入
sudo telinit 3
再安装驱动程序输入
cd /home/用户名
进入到驱动所在文件夹 (下好的驱动文件放在home 或者叫主文件夹下)输入
sudo chmod a+x NVIDIA-Linux-x86_64-xxx.run
sudo sh NVIDIA-Linux-x86_64-xxx.run -no-opengl-files
最后重新启动 reboot
PYTORCH GPU版
更新驱动程序
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-J69ZVhZA-1590658049693)(G:\githubblog\source\_posts\深度学习\环境搭建\人工智能相关环境搭建.assets\cuda与驱动对应关系-1665491036353.png)]
windows:
“我的电脑”右键-“管理”“-显示适配器”-“驱动信息”-“更新驱动程序”
更新后我的驱动版本为472.19,最高可支持到CUDA11.4
linux:
如上,更新驱动。
安装CUDA11.3
Windows
https://developer.nvidia.com/cuda-toolkit-archive
https://pytorch.org/
注意pytorch官网上说pytorch win版已不支持cuda10.2
创建环境conda create -n torch_gpu python=3.7
激活环境 conda activate torch_gpu
安装torch
pip3 install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu113
检查环境装好没
conda activate torch
python
import torch
torch.cuda.is_available()
TRUE
conda常用命令
退出当前环境 conda deactivate
看包conda list
#删除环境,慎用!
conda remove -n torch --all 把刚才建立的torch环境统统删掉(慎用!)
踩的一个坑就是不要用清华源的conda install,这样安装的torch是cpu版的,直接区torch官网用它的pip install,亲测有效,十几分钟就Ok了!
Linux服务器
法一:官网推荐pip直接安装。Pytorch官方网站
pip install torch==1.12.0+cu113 torchvision==0.13.0+cu113 torchaudio==0.12.0 --extra-index-url https://download.pytorch.org/whl/cu113
这种方法最简单,适用于网络好、可访问国外官网的服务器。
学校的g101n01节点的网络不稳定,只下载了这几个Collecting torch1.12.0+cu113、Collecting torchvision0.13.0+cu113、Collecting torchaudio==0.12.0,其余库只能在国内源下载,特再次总结
pip install pillow -i https://pypi.douban.com/simple
pip install typing-extensions -i https://pypi.douban.com/simple
pip install numpy -i https://pypi.douban.com/simple
pip install requests -i https://pypi.douban.com/simple
学校g01n01等大部分节点显卡驱动版本较老375.26,没有root权限升级驱动的情况下只能需要使用低版本cuda
conda create -n mario_cu8.0 python=3.7 nomkl
conda install pytorch==1.0.0 torchvision==0.2.1 cuda80 -c pytorch
python
>>>import torch
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "/gpfs1/home/nc/hpc1/miniconda3/envs/mario_cu9.0/lib/python3.7/site-packages/torch/__init__.py", line 84, in <module>
from torch._C import *
ImportError: /usr/lib64/libstdc++.so.6: version `CXXABI_1.3.8' not found (required by /gpfs1/home/nc/hpc1/miniconda3/envs/mario_cu9.0/lib/python3.7/site-packages/torch/lib/libtorch_python.so)
在学校服务器总是会遇到基础库的问题,看这篇文章!
法二:下载wheel文件安装。Pytorch的wheel文件下载地址
wget https://download.pytorch.org/whl/cu113/torch-1.10.2%2Bcu113-cp37-cp37m-linux_x86_64.whl
法三:下载现成的包安装。Pytorch包下载地址(踩坑中)
考虑到某些linux服务器上可能不能访问不了Pytorch的官网,可以自己下载下来然后上传
或者可以直接在国内镜像源下载编译好的pytorch包 进行离线安装(注意显卡驱动版本和CUDA版本对应关系)
wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/linux-64/pytorch-1.10.0-py3.6_cuda11.3_cudnn8.2.0_0.tar.bz2 --no-check-certificate
cd $anaconda3/envs/yourself-env-name/
tar -xvf pytorch-1.10.0-py3.6_cuda11.3_cudnn8.2.0_0.tar.bz2
我在学校平台上需要先加载cuda环境
module load cuda/11.5
然而以这种离线方式安装,会报没有Mkl动态库的错误
$python
>>> import torch
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "/gpfs1/home/nc/hpc1/miniconda3/envs/mario/lib/python3.7/site-packages/torch/__init__.py", line 201, in <module>
_load_global_deps()
File "/gpfs1/home/nc/hpc1/miniconda3/envs/mario/lib/python3.7/site-packages/torch/__init__.py", line 154, in _load_global_deps
ctypes.CDLL(lib_path, mode=ctypes.RTLD_GLOBAL)
File "/gpfs1/home/nc/hpc1/miniconda3/envs/mario/lib/python3.7/ctypes/__init__.py", line 364, in __init__
self._handle = _dlopen(self._name, mode)
OSError: libmkl_intel_lp64.so: cannot open shared object file: No such file or directory
>>>
[5]+ Stopped python
安装一下
pip install mkl -i https://pypi.douban.com/simple/
貌似还是缺少那个动态库…
TENSORFLOW GPU版
Win10 1050Ti搭建tensorflow-gpu环境
参考:https://blog.csdn.net/weixin_38899860/article/details/106067102
**CUDA9.0.176_win10:**https://developer.nvidia.com/cuda-90-download-archive
**Cudnn7.3.1:**https://developer.nvidia.com/rdp/cudnn-archive
cuda与tensorflow对应关系
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rb0ajkC5-1691724948795)(人工智能相关环境搭建.assets/cuda与tensorflow对应关系-1663572940070.png)]
解压Cudnn
可以看到bin、include、lib目录
打开 C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA
找到你安装的版本目录,打开,找到bin、include、lib目录,将cuDNN压缩包内对应的文件复制到bin、include、lib目录。
注意:是复制文件到bin、include、lib目录,不是复制目录。
添加PATH环境变量(根据自己路径设置)
记得添加环境变量到path
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v9.0\lib\x64
检查安装结果
在cmd窗口输入nvcc -V
安装tensorflow-gpu
conda create -n tf_1.10 python=3.6
python -m pip install --upgrade pip
pip install --ignore-installed --upgrade tensorflow-gpu==1.10.0 -i https://pypi.douban.com/simple/
验证tensorflow是否连上gpu
python
from tensorflow.python.client import device_lib
print(device_lib.list_local_devices())
删除环境
conda remove -n your_env_name(虚拟环境名称) --all
conda install cudatoolkit=9.0 -c https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/linux-64/
conda install cudnn=7.6.4 -c https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/linux-64/
-i https://pypi.tuna.tsinghua.edu.cn/simple
-i https://mirrors.aliyun.com/pypi/simple
https://stackoverflow.com/questions/64662085/fix-not-load-dynamic-library-for-tensorflow-gpu
Ubuntu 20.04 + 3090 搭建tensorflow-gpu环境
tensorflow cuda cudnn对应关系
https://blog.csdn.net/weixin_44560088/article/details/117457619
CUDA安装
wget https://developer.download.nvidia.com/compute/cuda/11.3.0/local_installers/cuda_11.3.0_465.19.01_linux.runsudo sh cuda_11.3.0_465.19.01_linux.run
sudo sh cuda_11.3.0_465.19.01_linux.run
vi ~/.bashrc加入环境变量
export LD_LIBRARY_PATH=:$LD_LIBRARY_PATH
export PATH=:$PATH
export CUDA_HOME=:CUDA_HOME
source ~/.bashrc使其生效
CUDNN安装
https://developer.nvidia.com/rdp/cudnn-download
官方教程:https://docs.nvidia.com/deeplearning/cudnn/install-guide/index.html
安装与tensorflow cuda 对应版本的cudnn
1、Enable the local repository.
sudo apt-get install zlib1g
wget https://developer.nvidia.com/compute/cudnn/secure/8.6.0/local_installers/11.8/cudnn-local-repo-ubuntu2004-8.6.0.163_1.0-1_amd64.deb
sudo dpkg -i cudnn-local-repo-ubuntu2004-8.6.0.163_1.0-1_amd64.deb
2、Import the CUDA GPG key.
sudo cp /var/cudnn-local-repo-*/cudnn-local-*-keyring.gpg /usr/share/keyrings/
3、Refresh the repository metadata.
sudo apt-get update
4、 Install the runtime library.
sudo apt-get install libcudnn8=8.x.x.x-1+cudaX.Y
5、Install the developer library.
sudo apt-get install libcudnn8-dev=8.x.x.x-1+cudaX.Y
6、Install the code samples and the cuDNN library documentation.
sudo apt-get install libcudnn8-samples=8.x.x.x-1+cudaX.Y
安装tensorflow_gpu-2.5.0
conda create -n tf_2.5.0 python=3.7
python -m pip install --upgrade pip
pip3 install tensorflow-gpu==2.5.0 -i https://pypi.douban.com/simple/
测试是否能用TensorFlow-GPU版本
python
from tensorflow.python.client import device_lib
print(device_lib.list_local_devices())