人工智能相关环境搭建

Win + Linux双系统安装

淘宝花30块踩坑…

https://mirrors.tuna.tsinghua.edu.cn/ubuntu-releases/jammy/ubuntu-22.04.2-desktop-amd64.iso

制作启动盘

在windows上压缩100gb空间,Refus制作启动盘
引导黑屏后注意用hdmi线(不要用dp线,hdmi是两个缺口,dp线是一个),主机箱上下两个接口都试试。一个是主板的,一个是显卡的
进入ubuntu后创建分区时,先删除那100GB的分区(点那个-号),然后继续,选第一个选项与windows共存
如果重新回到windows分辨率改不了的话,下载一个驱动大师更新下驱动即可

sudo gedit /etc/modprobe.d/blacklist.conf
加参数到最底下回车另起一行内容为
blacklist nouveau
options nouveau modeset=0
保存再终端更新内核命令 终端输入
sudo update-initramfs -u
sudo apt update 
sudo apt install gcc g++ make

然后好了以后重启电脑
百度nvidia 官网去下对应显卡版本的驱动https://www.nvidia.cn/drivers/results/200481/举例(下面XXX是版本的意思) NVIDIA-Linux-x86_64-440.run (384或者440都可以版本里面的)下好的文件放在 主文件夹 或者说叫home 目录下
先按Ctrl + Alt + F3到控制台,关闭当前图形环境 输入
sudo telinit 3 
再安装驱动程序输入
cd /home/用户名 
进入到驱动所在文件夹 (下好的驱动文件放在home 或者叫主文件夹下)输入
sudo chmod a+x NVIDIA-Linux-x86_64-xxx.run
sudo sh NVIDIA-Linux-x86_64-xxx.run -no-opengl-files

最后重新启动 reboot

PYTORCH GPU版

更新驱动程序

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-J69ZVhZA-1590658049693)(G:\githubblog\source\_posts\深度学习\环境搭建\人工智能相关环境搭建.assets\cuda与驱动对应关系-1665491036353.png)]

windows:

“我的电脑”右键-“管理”“-显示适配器”-“驱动信息”-“更新驱动程序”

更新后我的驱动版本为472.19,最高可支持到CUDA11.4

linux:

如上,更新驱动。

安装CUDA11.3

Windows

https://developer.nvidia.com/cuda-toolkit-archive

https://pytorch.org/

注意pytorch官网上说pytorch win版已不支持cuda10.2

创建环境conda create -n torch_gpu python=3.7
激活环境 conda activate torch_gpu
安装torch
pip3 install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu113

检查环境装好没
conda activate torch
python
import torch
torch.cuda.is_available()
TRUE

conda常用命令
退出当前环境 conda deactivate
看包conda list
#删除环境,慎用!
conda remove -n torch --all 把刚才建立的torch环境统统删掉(慎用!)

踩的一个坑就是不要用清华源的conda install,这样安装的torch是cpu版的,直接区torch官网用它的pip install,亲测有效,十几分钟就Ok了!

Linux服务器

法一:官网推荐pip直接安装。Pytorch官方网站

pip install torch==1.12.0+cu113 torchvision==0.13.0+cu113 torchaudio==0.12.0 --extra-index-url https://download.pytorch.org/whl/cu113

这种方法最简单,适用于网络好、可访问国外官网的服务器。

学校的g101n01节点的网络不稳定,只下载了这几个Collecting torch1.12.0+cu113、Collecting torchvision0.13.0+cu113、Collecting torchaudio==0.12.0,其余库只能在国内源下载,特再次总结

pip install pillow -i https://pypi.douban.com/simple
pip install typing-extensions -i https://pypi.douban.com/simple
pip install numpy -i https://pypi.douban.com/simple
pip install requests -i https://pypi.douban.com/simple

学校g01n01等大部分节点显卡驱动版本较老375.26,没有root权限升级驱动的情况下只能需要使用低版本cuda

conda create -n mario_cu8.0 python=3.7 nomkl
conda install pytorch==1.0.0 torchvision==0.2.1 cuda80 -c pytorch
python
>>>import torch
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/gpfs1/home/nc/hpc1/miniconda3/envs/mario_cu9.0/lib/python3.7/site-packages/torch/__init__.py", line 84, in <module>
    from torch._C import *
ImportError: /usr/lib64/libstdc++.so.6: version `CXXABI_1.3.8' not found (required by /gpfs1/home/nc/hpc1/miniconda3/envs/mario_cu9.0/lib/python3.7/site-packages/torch/lib/libtorch_python.so)

在学校服务器总是会遇到基础库的问题,看这篇文章

Anaconda中mkl的坑

法二:下载wheel文件安装。Pytorch的wheel文件下载地址

wget https://download.pytorch.org/whl/cu113/torch-1.10.2%2Bcu113-cp37-cp37m-linux_x86_64.whl

法三:下载现成的包安装。Pytorch包下载地址(踩坑中)

考虑到某些linux服务器上可能不能访问不了Pytorch的官网,可以自己下载下来然后上传

或者可以直接在国内镜像源下载编译好的pytorch包 进行离线安装(注意显卡驱动版本和CUDA版本对应关系)

wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/linux-64/pytorch-1.10.0-py3.6_cuda11.3_cudnn8.2.0_0.tar.bz2 --no-check-certificate

cd $anaconda3/envs/yourself-env-name/
tar -xvf pytorch-1.10.0-py3.6_cuda11.3_cudnn8.2.0_0.tar.bz2

我在学校平台上需要先加载cuda环境

module load cuda/11.5

然而以这种离线方式安装,会报没有Mkl动态库的错误

$python
>>> import torch
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/gpfs1/home/nc/hpc1/miniconda3/envs/mario/lib/python3.7/site-packages/torch/__init__.py", line 201, in <module>
    _load_global_deps()
  File "/gpfs1/home/nc/hpc1/miniconda3/envs/mario/lib/python3.7/site-packages/torch/__init__.py", line 154, in _load_global_deps
    ctypes.CDLL(lib_path, mode=ctypes.RTLD_GLOBAL)
  File "/gpfs1/home/nc/hpc1/miniconda3/envs/mario/lib/python3.7/ctypes/__init__.py", line 364, in __init__
    self._handle = _dlopen(self._name, mode)
OSError: libmkl_intel_lp64.so: cannot open shared object file: No such file or directory
>>>
[5]+  Stopped                 python

安装一下

pip install mkl -i https://pypi.douban.com/simple/

貌似还是缺少那个动态库…

TENSORFLOW GPU版

Win10 1050Ti搭建tensorflow-gpu环境

参考:https://blog.csdn.net/weixin_38899860/article/details/106067102

**CUDA9.0.176_win10:**https://developer.nvidia.com/cuda-90-download-archive

**Cudnn7.3.1:**https://developer.nvidia.com/rdp/cudnn-archive

cuda与tensorflow对应关系

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rb0ajkC5-1691724948795)(人工智能相关环境搭建.assets/cuda与tensorflow对应关系-1663572940070.png)]

解压Cudnn

可以看到bin、include、lib目录
打开 C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA
找到你安装的版本目录,打开,找到bin、include、lib目录,将cuDNN压缩包内对应的文件复制到bin、include、lib目录。
注意:是复制文件到bin、include、lib目录,不是复制目录。

添加PATH环境变量(根据自己路径设置)

记得添加环境变量到path

C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v9.0\lib\x64

检查安装结果

在cmd窗口输入nvcc -V

安装tensorflow-gpu

conda create -n tf_1.10 python=3.6
python -m pip install --upgrade pip
pip install --ignore-installed --upgrade tensorflow-gpu==1.10.0 -i https://pypi.douban.com/simple/

验证tensorflow是否连上gpu

python
from tensorflow.python.client import device_lib
print(device_lib.list_local_devices())

删除环境

conda remove -n your_env_name(虚拟环境名称) --all
conda install cudatoolkit=9.0 -c https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/linux-64/

conda install cudnn=7.6.4 -c https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/linux-64/
-i https://pypi.tuna.tsinghua.edu.cn/simple
-i https://mirrors.aliyun.com/pypi/simple

https://stackoverflow.com/questions/64662085/fix-not-load-dynamic-library-for-tensorflow-gpu

Ubuntu 20.04 + 3090 搭建tensorflow-gpu环境

tensorflow cuda cudnn对应关系

https://blog.csdn.net/weixin_44560088/article/details/117457619

CUDA安装

wget https://developer.download.nvidia.com/compute/cuda/11.3.0/local_installers/cuda_11.3.0_465.19.01_linux.runsudo sh cuda_11.3.0_465.19.01_linux.run
sudo sh cuda_11.3.0_465.19.01_linux.run

vi ~/.bashrc加入环境变量

export LD_LIBRARY_PATH=:$LD_LIBRARY_PATH
export PATH=:$PATH
export CUDA_HOME=:CUDA_HOME

source ~/.bashrc使其生效

CUDNN安装

https://developer.nvidia.com/rdp/cudnn-download

官方教程:https://docs.nvidia.com/deeplearning/cudnn/install-guide/index.html

安装与tensorflow cuda 对应版本的cudnn

1、Enable the local repository.

sudo apt-get install zlib1g
wget https://developer.nvidia.com/compute/cudnn/secure/8.6.0/local_installers/11.8/cudnn-local-repo-ubuntu2004-8.6.0.163_1.0-1_amd64.deb
sudo dpkg -i cudnn-local-repo-ubuntu2004-8.6.0.163_1.0-1_amd64.deb

2、Import the CUDA GPG key.

sudo cp /var/cudnn-local-repo-*/cudnn-local-*-keyring.gpg /usr/share/keyrings/

3、Refresh the repository metadata.

sudo apt-get update

4、 Install the runtime library.

sudo apt-get install libcudnn8=8.x.x.x-1+cudaX.Y

5、Install the developer library.

sudo apt-get install libcudnn8-dev=8.x.x.x-1+cudaX.Y

6、Install the code samples and the cuDNN library documentation.

sudo apt-get install libcudnn8-samples=8.x.x.x-1+cudaX.Y

安装tensorflow_gpu-2.5.0

conda create -n tf_2.5.0 python=3.7
python -m pip install --upgrade pip
pip3 install tensorflow-gpu==2.5.0 -i https://pypi.douban.com/simple/

测试是否能用TensorFlow-GPU版本

python
from tensorflow.python.client import device_lib
print(device_lib.list_local_devices())
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值