人工智能相关环境搭建

最新推荐文章于 2024-04-10 11:02:43 发布

brucecui1998

最新推荐文章于 2024-04-10 11:02:43 发布

阅读量190

点赞数

分类专栏：科研环境搭建文章标签：人工智能

本文链接：https://blog.csdn.net/brucecui1998/article/details/132227778

版权

科研环境搭建专栏收录该内容

3 篇文章 0 订阅

订阅专栏

文章目录

Win + Linux双系统安装
- 制作启动盘
PYTORCH GPU版
TENSORFLOW GPU版

Win + Linux双系统安装

淘宝花30块踩坑…

https://mirrors.tuna.tsinghua.edu.cn/ubuntu-releases/jammy/ubuntu-22.04.2-desktop-amd64.iso

制作启动盘

在windows上压缩100gb空间，Refus制作启动盘
引导黑屏后注意用hdmi线(不要用dp线，hdmi是两个缺口，dp线是一个)，主机箱上下两个接口都试试。一个是主板的，一个是显卡的
进入ubuntu后创建分区时，先删除那100GB的分区(点那个-号)，然后继续，选第一个选项与windows共存
如果重新回到windows分辨率改不了的话，下载一个驱动大师更新下驱动即可

sudo gedit /etc/modprobe.d/blacklist.conf
加参数到最底下回车另起一行内容为
blacklist nouveau
options nouveau modeset=0
保存再终端更新内核命令 终端输入
sudo update-initramfs -u
sudo apt update 
sudo apt install gcc g++ make

然后好了以后重启电脑
百度nvidia 官网去下对应显卡版本的驱动https://www.nvidia.cn/drivers/results/200481/举例（下面XXX是版本的意思） NVIDIA-Linux-x86_64-440.run （384或者440都可以版本里面的）下好的文件放在 主文件夹 或者说叫home 目录下
先按Ctrl + Alt + F3到控制台，关闭当前图形环境 输入
sudo telinit 3 
再安装驱动程序输入
cd /home/用户名 
进入到驱动所在文件夹 （下好的驱动文件放在home 或者叫主文件夹下）输入
sudo chmod a+x NVIDIA-Linux-x86_64-xxx.run
sudo sh NVIDIA-Linux-x86_64-xxx.run -no-opengl-files

最后重新启动 reboot

PYTORCH GPU版

更新驱动程序

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-J69ZVhZA-1590658049693)(G:\githubblog\source\_posts\深度学习\环境搭建\人工智能相关环境搭建.assets\cuda与驱动对应关系-1665491036353.png)]

windows:

“我的电脑”右键-“管理”“-显示适配器”-“驱动信息”-“更新驱动程序”

更新后我的驱动版本为472.19，最高可支持到CUDA11.4

linux:

如上，更新驱动。

安装CUDA11.3

Windows

https://developer.nvidia.com/cuda-toolkit-archive

https://pytorch.org/

注意pytorch官网上说pytorch win版已不支持cuda10.2

创建环境conda create -n torch_gpu python=3.7
激活环境 conda activate torch_gpu
安装torch
pip3 install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu113

检查环境装好没
conda activate torch
python
import torch
torch.cuda.is_available()
TRUE

conda常用命令
退出当前环境 conda deactivate
看包conda list
#删除环境，慎用！
conda remove -n torch --all 把刚才建立的torch环境统统删掉（慎用！）

踩的一个坑就是不要用清华源的conda install，这样安装的torch是cpu版的，直接区torch官网用它的pip install，亲测有效，十几分钟就Ok了！

Linux服务器

法一：官网推荐pip直接安装。Pytorch官方网站

pip install torch==1.12.0+cu113 torchvision==0.13.0+cu113 torchaudio==0.12.0 --extra-index-url https://download.pytorch.org/whl/cu113

这种方法最简单，适用于网络好、可访问国外官网的服务器。

学校的g101n01节点的网络不稳定，只下载了这几个Collecting torch1.12.0+cu113、Collecting torchvision0.13.0+cu113、Collecting torchaudio==0.12.0，其余库只能在国内源下载，特再次总结

pip install pillow -i https://pypi.douban.com/simple
pip install typing-extensions -i https://pypi.douban.com/simple
pip install numpy -i https://pypi.douban.com/simple
pip install requests -i https://pypi.douban.com/simple

学校g01n01等大部分节点显卡驱动版本较老375.26，没有root权限升级驱动的情况下只能需要使用低版本cuda

conda create -n mario_cu8.0 python=3.7 nomkl
conda install pytorch==1.0.0 torchvision==0.2.1 cuda80 -c pytorch

python
>>>import torch
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/gpfs1/home/nc/hpc1/miniconda3/envs/mario_cu9.0/lib/python3.7/site-packages/torch/__init__.py", line 84, in <module>
    from torch._C import *
ImportError: /usr/lib64/libstdc++.so.6: version `CXXABI_1.3.8' not found (required by /gpfs1/home/nc/hpc1/miniconda3/envs/mario_cu9.0/lib/python3.7/site-packages/torch/lib/libtorch_python.so)

在学校服务器总是会遇到基础库的问题，看这篇文章！

Anaconda中mkl的坑

法二：下载wheel文件安装。Pytorch的wheel文件下载地址

wget https://download.pytorch.org/whl/cu113/torch-1.10.2%2Bcu113-cp37-cp37m-linux_x86_64.whl

法三：下载现成的包安装。Pytorch包下载地址（踩坑中）

考虑到某些linux服务器上可能不能访问不了Pytorch的官网，可以自己下载下来然后上传

或者可以直接在国内镜像源下载编译好的pytorch包进行离线安装（注意显卡驱动版本和CUDA版本对应关系）

wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/linux-64/pytorch-1.10.0-py3.6_cuda11.3_cudnn8.2.0_0.tar.bz2 --no-check-certificate

cd $anaconda3/envs/yourself-env-name/
tar -xvf pytorch-1.10.0-py3.6_cuda11.3_cudnn8.2.0_0.tar.bz2

我在学校平台上需要先加载cuda环境

module load cuda/11.5

然而以这种离线方式安装，会报没有Mkl动态库的错误

$python
>>> import torch
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/gpfs1/home/nc/hpc1/miniconda3/envs/mario/lib/python3.7/site-packages/torch/__init__.py", line 201, in <module>
    _load_global_deps()
  File "/gpfs1/home/nc/hpc1/miniconda3/envs/mario/lib/python3.7/site-packages/torch/__init__.py", line 154, in _load_global_deps
    ctypes.CDLL(lib_path, mode=ctypes.RTLD_GLOBAL)
  File "/gpfs1/home/nc/hpc1/miniconda3/envs/mario/lib/python3.7/ctypes/__init__.py", line 364, in __init__
    self._handle = _dlopen(self._name, mode)
OSError: libmkl_intel_lp64.so: cannot open shared object file: No such file or directory
>>>
[5]+  Stopped                 python

安装一下

pip install mkl -i https://pypi.douban.com/simple/

貌似还是缺少那个动态库…

TENSORFLOW GPU版

Win10 1050Ti搭建tensorflow-gpu环境

参考：https://blog.csdn.net/weixin_38899860/article/details/106067102

**CUDA9.0.176_win10:**https://developer.nvidia.com/cuda-90-download-archive

**Cudnn7.3.1:**https://developer.nvidia.com/rdp/cudnn-archive

cuda与tensorflow对应关系

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rb0ajkC5-1691724948795)(人工智能相关环境搭建.assets/cuda与tensorflow对应关系-1663572940070.png)]

解压Cudnn

可以看到bin、include、lib目录
打开 C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA
找到你安装的版本目录，打开，找到bin、include、lib目录，将cuDNN压缩包内对应的文件复制到bin、include、lib目录。
注意：是复制文件到bin、include、lib目录，不是复制目录。

添加PATH环境变量（根据自己路径设置）

记得添加环境变量到path

C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v9.0\lib\x64

检查安装结果

在cmd窗口输入nvcc -V

安装tensorflow-gpu

conda create -n tf_1.10 python=3.6
python -m pip install --upgrade pip
pip install --ignore-installed --upgrade tensorflow-gpu==1.10.0 -i https://pypi.douban.com/simple/

验证tensorflow是否连上gpu

python
from tensorflow.python.client import device_lib
print(device_lib.list_local_devices())

删除环境

conda remove -n your_env_name(虚拟环境名称) --all

conda install cudatoolkit=9.0 -c https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/linux-64/

conda install cudnn=7.6.4 -c https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/linux-64/

-i https://pypi.tuna.tsinghua.edu.cn/simple
-i https://mirrors.aliyun.com/pypi/simple

https://stackoverflow.com/questions/64662085/fix-not-load-dynamic-library-for-tensorflow-gpu

Ubuntu 20.04 + 3090 搭建tensorflow-gpu环境

tensorflow cuda cudnn对应关系

https://blog.csdn.net/weixin_44560088/article/details/117457619

CUDA安装

wget https://developer.download.nvidia.com/compute/cuda/11.3.0/local_installers/cuda_11.3.0_465.19.01_linux.runsudo sh cuda_11.3.0_465.19.01_linux.run
sudo sh cuda_11.3.0_465.19.01_linux.run

vi ~/.bashrc加入环境变量

export LD_LIBRARY_PATH=:$LD_LIBRARY_PATH
export PATH=:$PATH
export CUDA_HOME=:CUDA_HOME

source ~/.bashrc使其生效

CUDNN安装

https://developer.nvidia.com/rdp/cudnn-download

官方教程：https://docs.nvidia.com/deeplearning/cudnn/install-guide/index.html

安装与tensorflow cuda 对应版本的cudnn

1、Enable the local repository.

sudo apt-get install zlib1g
wget https://developer.nvidia.com/compute/cudnn/secure/8.6.0/local_installers/11.8/cudnn-local-repo-ubuntu2004-8.6.0.163_1.0-1_amd64.deb
sudo dpkg -i cudnn-local-repo-ubuntu2004-8.6.0.163_1.0-1_amd64.deb

2、Import the CUDA GPG key.

sudo cp /var/cudnn-local-repo-*/cudnn-local-*-keyring.gpg /usr/share/keyrings/

3、Refresh the repository metadata.

sudo apt-get update

4、 Install the runtime library.

sudo apt-get install libcudnn8=8.x.x.x-1+cudaX.Y

5、Install the developer library.

sudo apt-get install libcudnn8-dev=8.x.x.x-1+cudaX.Y

6、Install the code samples and the cuDNN library documentation.

sudo apt-get install libcudnn8-samples=8.x.x.x-1+cudaX.Y

安装tensorflow_gpu-2.5.0

conda create -n tf_2.5.0 python=3.7
python -m pip install --upgrade pip
pip3 install tensorflow-gpu==2.5.0 -i https://pypi.douban.com/simple/

测试是否能用TensorFlow-GPU版本

python
from tensorflow.python.client import device_lib
print(device_lib.list_local_devices())