Ubuntu16.04+RTX3090+python3+cuda11.1+ CUDNN 8.04+anaconda3+pytorch-nightly深度学习环境搭建实录

最新推荐文章于 2024-06-05 21:39:50 发布

markchalse

最新推荐文章于 2024-06-05 21:39:50 发布

阅读量6.9k

点赞数 5

分类专栏：机器学习文章标签： cuda linux 深度学习 ubuntu rtx

本文链接：https://blog.csdn.net/markchalse/article/details/109558251

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

硬件信息

cpu Intel(R) Core(TM) i7-10700 CPU @ 2.90GHz

显卡 GeForce RTX 3090

网卡 Ethernet Connection (17) I219-V

内存 62GiB System memory

----------------------------------------------------------------------------------

换源

sudo gedit /etc/apt/sources.list

deb http://mirrors.aliyun.com/ubuntu/ trusty main restricted universe multiverse

deb http://mirrors.aliyun.com/ubuntu/ trusty-security main restricted universe multiverse

deb http://mirrors.aliyun.com/ubuntu/ trusty-updates main restricted universe multiverse

deb http://mirrors.aliyun.com/ubuntu/ trusty-proposed main restricted universe multiverse

deb http://mirrors.aliyun.com/ubuntu/ trusty-backports main restricted universe multiverse

deb-src http://mirrors.aliyun.com/ubuntu/ trusty main restricted universe multiverse

deb-src http://mirrors.aliyun.com/ubuntu/ trusty-security main restricted universe multiverse

deb-src http://mirrors.aliyun.com/ubuntu/ trusty-updates main restricted universe multiverse

deb-src http://mirrors.aliyun.com/ubuntu/ trusty-proposed main restricted universe multiverse

deb-src http://mirrors.aliyun.com/ubuntu/ trusty-backports main restricted universe multiverse

sudo apt-get update

----------------------------------------------------------------------------------

安装谷歌chrome

wget https://dl.google.com/linux/direct/google-chrome-stable_current_amd64.deb

sudo dpkg -i google-chrome-stable_current_amd64.deb

----------------------------------------------------------------------------------

2 TP Link TL-WDN5200无线网卡驱动（放弃）（可能会用到）

----------------------------------------------------------------------------------

3 有线网卡驱动安装

先执行命令lspci | grep -i net ,查到有线网卡版本

我的是inter Corporation Device 15bc

这款网卡内核从4.12版本开始支持。你当前系统的内核版本用 uname -r查看。ubuntu 18.04，内核4.15就能直接支持了

下载驱动：https://downloadcenter.intel.com/download/15817

自己选择一个版本的下载就行

解压：tar -zxvf e1000e-3.4.2.1.tar.gz

安装：cd e1000e-3.4.2.1/src

make install(不行的话就用sudo make install试试)

modprobe e1000e(不行同上加sudo执行)

----------------------------------------------------------------------------------

Ubuntu安装和卸载CUDA和CUDNN https://blog.csdn.net/qq_33200967/article/details/80689543

----------------------------------------------------------------------------------

4 安装显卡驱动

禁用nouveau驱动

sudo gedit /etc/modprobe.d/blacklist.conf

在文本最后添加：

blacklist nouveau

options nouveau modeset=0

然后执行：

sudo update-initramfs -u

reboot重启后，执行以下命令，如果没有屏幕输出，说明禁用nouveau成功：

lsmod | grep nouveau

下载驱动

官网下载地址：https://www.nvidia.cn/Download/index.aspx?lang=cn ，根据自己显卡的情况下载对应版本的显卡驱动

下载完成之后会得到一个安装包，不同版本文件名可能不一样：

NVIDIA-Linux-x86_64-455.23.04.run

卸载旧驱动

以下操作都需要在命令界面操作，执行以下快捷键进入命令界面，并登录：

Ctrl-Alt+F1

执行以下命令禁用X-Window服务，否则无法安装显卡驱动：

sudo service lightdm stop

执行以下三条命令卸载原有显卡驱动：

sudo apt-get remove --purge nvidia*

sudo chmod +x NVIDIA-Linux-x86_64-410.93.run

sudo ./NVIDIA-Linux-x86_64-410.93.run --uninstall

安装新驱动

直接执行驱动文件即可安装新驱动，一直默认即可：

sudo ./NVIDIA-Linux-x86_64-410.93.run

执行以下命令启动X-Window服务

sudo service lightdm start

最后执行重启命令，重启系统即可：

reboot

注意：如果系统重启之后出现重复登录的情况，多数情况下都是安装了错误版本的显卡驱动。需要下载对应本身机器安装的显卡版本。

----------------------------------------------------------------------------------

5 卸载CUDA （可能会用到）

----------------------------------------------------------------------------------

6 安装CUDA

安装的CUDA和CUDNN版本：

CUDA 11.1

CUDNN 8.04

接下来的安装步骤都是在root用户下操作的。

下载和安装CUDA

我们可以在官网：CUDA10下载页面

https://developer.nvidia.com/cuda-downloads?target_os=Linux&target_arch=x86_64&target_distro=Ubuntu&target_version=1604&target_type=runfilelocal

下载符合自己系统版本的CUDA。页面如下：

Installation Instructions:

wget https://developer.download.nvidia.com/compute/cuda/11.1.1/local_installers/cuda_11.1.1_455.32.00_linux.run

sudo sh cuda_11.1.1_455.32.00_linux.run

开始安装之后，需要阅读说明，可以使用Ctrl + C直接阅读完成，或者使用空格键慢慢阅读。然后进行配置，我这里说明一下：

如果是cuda installer

[x]表示选中 []表示没选 driver前面选择取消

在install回车

（是否同意条款，必须同意才能继续安装）

accept/decline/quit: accept

（这里不要安装驱动，因为已经安装最新的驱动了，否则可能会安装旧版本的显卡驱动，导致重复登录的情况）

Install NVIDIA Accelerated Graphics Driver for Linux-x86_64 410.48?

(y)es/(n)o/(q)uit: n

Install the CUDA 10.0 Toolkit?（是否安装CUDA 10 ，这里必须要安装）

(y)es/(n)o/(q)uit: y

Enter Toolkit Location（安装路径，使用默认，直接回车就行）

[ default is /usr/local/cuda-10.0 ]:

Do you want to install a symbolic link at /usr/local/cuda?（同意创建软链接）

(y)es/(n)o/(q)uit: y

Install the CUDA 10.0 Samples?（不用安装测试，本身就有了）

(y)es/(n)o/(q)uit: n

Installing the CUDA Toolkit in /usr/local/cuda-10.0 ...（开始安装）

安装完成之后，可以配置他们的环境变量，在vim ~/.bashrc的最后加上以下配置信息：

export CUDA_HOME=/usr/local/cuda-11.1

export LD_LIBRARY_PATH=${CUDA_HOME}/lib64

export PATH=${CUDA_HOME}/bin:${PATH}

最后使用命令source ~/.bashrc使它生效。

可以使用命令nvcc -V查看安装的版本信息：

test@test:~$ nvcc -V

nvcc: NVIDIA (R) Cuda compiler driver

Built on Sat_Aug_25_21:08:01_CDT_2018

Cuda compilation tools, release 10.0, V10.0.130

测试安装是否成功

执行以下几条命令：

cd /usr/local/cuda-11.1/samples/1_Utilities/deviceQuery

sudo make

./deviceQuery

正常情况下输出：

./deviceQuery Starting...

CUDA Device Query (Runtime API) version (CUDART static linking)

Detected 1 CUDA Capable device(s)

Device 0: "GeForce RTX 2070"

CUDA Driver Version / Runtime Version 10.0 / 10.0

CUDA Capability Major/Minor version number: 7.5

Total amount of global memory: 7950 MBytes (8335982592 bytes)

(36) Multiprocessors, ( 64) CUDA Cores/MP: 2304 CUDA Cores

GPU Max Clock rate: 1620 MHz (1.62 GHz)

Memory Clock rate: 7001 Mhz

Memory Bus Width: 256-bit

L2 Cache Size: 4194304 bytes

Maximum Texture Dimension Size (x,y,z) 1D=(131072), 2D=(131072, 65536), 3D=(16384, 16384, 16384)

Maximum Layered 1D Texture Size, (num) layers 1D=(32768), 2048 layers

Maximum Layered 2D Texture Size, (num) layers 2D=(32768, 32768), 2048 layers

Total amount of constant memory: 65536 bytes

Total amount of shared memory per block: 49152 bytes

Total number of registers available per block: 65536

Warp size: 32

Maximum number of threads per multiprocessor: 1024

Maximum number of threads per block: 1024

Max dimension size of a thread block (x,y,z): (1024, 1024, 64)

Max dimension size of a grid size (x,y,z): (2147483647, 65535, 65535)

Maximum memory pitch: 2147483647 bytes

Texture alignment: 512 bytes

Concurrent copy and kernel execution: Yes with 3 copy engine(s)

Run time limit on kernels: Yes

Integrated GPU sharing Host Memory: No

Support host page-locked memory mapping: Yes

Alignment requirement for Surfaces: Yes

Device has ECC support: Disabled

Device supports Unified Addressing (UVA): Yes

Device supports Compute Preemption: Yes

Supports Cooperative Kernel Launch: Yes

Supports MultiDevice Co-op Kernel Launch: Yes

Device PCI Domain ID / Bus ID / location ID: 0 / 1 / 0

Compute Mode:

< Default (multiple host threads can use ::cudaSetDevice() with device simultaneously) >

deviceQuery, CUDA Driver = CUDART, CUDA Driver Version = 10.0, CUDA Runtime Version = 10.0, NumDevs = 1

Result = PASS

----------------------------------------------------------------------------------

7 安装cudnn

下载和安装CUDNN进入到CUDNN的下载官网：https://developer.nvidia.com/rdp/cudnn-download ，然点击Download开始选择下载版本，当然在下载之前还有登录，选择版本界面如下，我们选择cuDNN Library for Linux：

在这里插入图片描述

Download cuDNN v8.0.4 (September 28th, 2020), for CUDA 11.1

cuDNN Runtime Library for Ubuntu16.04 x86_64 (Deb)

cuDNN Library for Linux (x86_64)

下载之后是一个压缩包，如下：

cudnn-10.0-linux-x64-v7.4.2.24.tgz

然后对它进行解压，命令如下：

tar -zxvf cudnn-11.1-linux-x64-v8.0.4.30.tgz

解压之后可以得到以下文件：

cuda/include/cudnn.h

cuda/NVIDIA_SLA_cuDNN_Support.txt

cuda/lib64/libcudnn.so

cuda/lib64/libcudnn.so.7

cuda/lib64/libcudnn.so.7.4.2

cuda/lib64/libcudnn_static.a

使用以下两条命令复制这些文件到CUDA目录下：

sudo cp cuda/lib64/* /usr/local/cuda-11.1/lib64/

sudo cp cuda/include/* /usr/local/cuda-11.1/include/

拷贝完成之后，可以使用以下命令查看CUDNN的版本信息：

cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 2

测试安装结果

-------------------------------------------------------------------------------------

8 安装pytorch

------------------------------------------------------------

升级python 3.5到3.7.3

参考 https://blog.csdn.net/tao_627/article/details/90901830

安装依赖库

sudo apt-get install zlib1g-dev libbz2-dev libssl-dev libncurses5-dev libsqlite3-dev libreadline-dev tk-dev libgdbm-dev libdb-dev libpcap-dev xz-utils libexpat1-dev

sudo apt-get install liblzma-dev libffi-dev libc6-dev

从python官网下载

https://www.python.org/downloads/release/python-373/

wget 'https://www.python.org/ftp/python/3.7.3/Python-3.7.3.tgz'

迅雷下载比较快

tar zxvf Python-3.7.3.tgz

cd Python-3.7.3

sudo mkdir -p /usr/local/python3

./configure --prefix=/usr/local/python3 --enable-optimizations

make

sudo make install

删除软链接

先执行查看版本，如果有则证明软链接已存在，需要先删去以前的再重新建立

sudo rm -rf /usr/bin/python3

sudo rm -rf /usr/bin/pip3

建立新的软连接

#添加python3的软链接

sudo ln -s /usr/local/python3/bin/python3.7 /usr/bin/python3

#添加 pip3 的软链接

sudo ln -s /usr/local/python3/bin/pip3.7 /usr/bin/pip3

检测版本

python3 -V

pip3-V

------------------------------------------------------------

-----------------------------------------------------------------------------------------

9 python3 装 anaconda3

参考https://blog.csdn.net/ITBigGod/article/details/85690257/

下载https://repo.anaconda.com/archive/

Anaconda3-2020.07-Linux-x86_64.sh 550.1M 2020-07-23 12:16:50 1046c40a314ab2531e4c099741530ada

进入安装包Anaconda3-2018.12-Linux-x86_64.sh所在目录，打开终端

执行：bash Anaconda3-2018.12-Linux-x86_64.sh

之后就提示你要将Anaconda安装在目录/home/xxx/anaconda3下面：（建议使用此目录）。

（如下二选一：）

直接按回车键表示使用默认目录：

等待安装完之后，会询问是否把anaconda的bin添加到用户的环境变量中？输入yes。

这样就会安装好anaconda了，不需要重启的！～～

检查是否安装成功：

python3出现介绍了python的版本信息，而且后面带了anaconda的标识，这就说明Anaconda安装成功了，此时输入exit()退出python环境。

其次：输入 conda --version 之后输出conda 4.5.12 之类的版本信息，就说明环境变量设置成功了。

还有就是，在没有安装anaconda之前，我们输入：which python

查看python的原生默认安装路径为：

/usr/bin/python

而安装了anaconda之后，再次输入：which python

会改变为：/home/xxy/anaconda3/bin/python

---------

conda的配置文件config

如果用户从来没有使用过conda config 命令，就不会有配置文件，当用户第一次运行 conda config命令时，将会在用户的家目录创建该文件，即一个名为.condarc的文本文件，

一般表示 conda 应用程序的配置文件，在用户的家目录之下：

windows：C:\users\username\.condarc

inux：/home/username/.condarc）

注意：condarc配置文件，是一种可选的（optional）运行期配置文件，其默认情况下是不存在的，但当用户第一次运行 conda config命令时，才会在用户的家目录创建该文件。我可以通过conda config 命令来配置该文件，也完全可以自己手动编辑也可以。

1. 2 换国内源

（1）查看源：conda config --show-sources

==> C:\Users\wh19012\.condarc <==

channels:

- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/

- defaults

show_channel_urls: True

我这里有两个源，一个我添加的清华的源，一个是default默认的，即anaconda自己的源

（2）添加清华源：conda config --add channels

#添加清华的源

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/

# 设置搜索时显示通道地址

conda config --set show_channel_urls yes

（3）是否显示channel的来源：conda config --set show_channel_urls yes/no

如果是：conda config --set show_channel_urls yes 则配置文件中为 show_channel_urls: True

这表示在使用conda search package或者是conda install package的时候会显示这个包是来自于哪一个镜像源

当然我也可以不显示，则为：conda config --set show_channel_urls no 则配置文件中为 show_channel_urls: False

1.3 国内其它的一些源

Conda Forge

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/

msys2

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/msys2/

bioconda

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda/

menpo

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/menpo/

pytorch

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/

此外，还有中国科学技术大学、阿里云、豆瓣也有相关的源，但是个人感觉清华的这个最好用。

1.4 移除源：conda config --remove channels

conda config --remove channels 'https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/'

1.5 如果不想配置源怎么办呢？

如不过想添加配置文件，也可以这么做，这和使用pip安装是一样的：

conda install -c 镜像源地址 package

conda install --channel 镜像源地址 package

当然还是推荐使用配置文件，这样就可以一直使用，而且不用那么长的命令，更方便

- https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/linux-64/

- https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/win-64/

- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/

- https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/

- https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/msys2/

- https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/

- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/

清华大学开源软件镜像站

channels:

- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/

- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/

- https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/

ssl_verify: true

上海交通大学开源镜像站

channels:

- https://mirrors.sjtug.sjtu.edu.cn/anaconda/pkgs/main/

- https://mirrors.sjtug.sjtu.edu.cn/anaconda/pkgs/free/

- https://mirrors.sjtug.sjtu.edu.cn/anaconda/cloud/conda-forge/

ssl_verify: true

中国科学技术大学 USTC Mirror

channels:

- https://mirrors.ustc.edu.cn/anaconda/pkgs/main/

- https://mirrors.ustc.edu.cn/anaconda/pkgs/free/

- https://mirrors.ustc.edu.cn/anaconda/cloud/conda-forge/

ssl_verify: true

10 安装 pytorch

conda install pytorch torchvision cudatoolkit=11 -c pytorch-nightly

--------------------------------------------------------------------------

-------------------------------------------------------------------------------------

然后使用以下的程序测试安装情况：

-------------------------

神经网络测试

----

import torch

import torch.nn as nn

import numpy as np

# 构建输入集

x = np.mat('0 0;'

'0 1;'

'1 0;'

'1 1')

x = torch.tensor(x).float()

y = np.mat('1;'

'0;'

'1')

y = torch.tensor(y).float()

# 搭建网络

myNet = nn.Sequential(

nn.Linear(2, 10),

nn.ReLU(),

nn.Linear(10, 1),

nn.Sigmoid()

)

print(myNet)

# 设置优化器

optimzer = torch.optim.SGD(myNet.parameters(), lr=0.05)

loss_func = nn.MSELoss()

for epoch in range(5000):

out = myNet(x)

loss = loss_func(out, y) # 计算误差

optimzer.zero_grad() # 清除梯度

loss.backward()

optimzer.step()

print(myNet(x).data)

---

输出

Sequential(

(0): Linear(in_features=2, out_features=10, bias=True)

(1): ReLU()

(2): Linear(in_features=10, out_features=1, bias=True)

(3): Sigmoid()

)

tensor([[0.9526],

[0.0540],

[0.0560],

[0.9496]])

-----------

查看pytorch使用GPU

-----

import torch

a = torch.cuda.is_available()

print(a)

ngpu= 1

# Decide which device we want to run on

device = torch.device("cuda:0" if (torch.cuda.is_available() and ngpu > 0) else "cpu")

print(device)

print(torch.cuda.get_device_name(0))

print(torch.rand(3,3).cuda())

-------

True

cuda:0

GeForce RTX 3090

tensor([[0.2769, 0.3141, 0.3691],

[0.3561, 0.5787, 0.7292],

[0.1115, 0.4354, 0.0312]], device='cuda:0')

---------

--------------------------------------------------------------------------------------

可能有用：

-----------------------------------------------------------------------------

2 TP Link TL-WDN5200无线网卡驱动（放弃）

一版本

sudo apt update

sudo apt install build-essential git dkms

git clone https://github.com/brektrou/rtl8821CU.git

cd rtl8821CU

chmod +x dkms-install.sh

sudo ./dkms-install.sh

sudo modprobe 8821cu

reboot

二版本

具体步骤：

1、下载驱动

git clone https://github.com/whitebatman2/rtl8821CU.git

2、安装驱动

cd ./rtl8821CU

make

sudo make install

3、查看网卡

lsusb

得到的结果里应该有0bda：1a2b

继续执行

sudo usb_modeswitch -KW -v 0bda -p 1a2b

4、终端输出一大段文字后，结束。。。重启进入Ubuntu即可

三版本

git clone https://github.com/Mange/rtl8192eu-linux-driver

make

sudo make install

------------------------------------------------------------------------------------

-----------------------------------------------------------------------------------------

卸载CUDA

为什么一开始我就要卸载CUDA呢，这是因为笔者是换了显卡RTX2070，原本就安装了CUDA 8.0 和 CUDNN 7.0.5不能够正常使用，笔者需要安装CUDA 10.0 和 CUDNN 7.4.2，所以要先卸载原来的CUDA。注意以下的命令都是在root用户下操作的。

卸载CUDA很简单，一条命令就可以了，主要执行的是CUDA自带的卸载脚本，读者要根据自己的cuda版本找到卸载脚本：

sudo /usr/local/cuda-8.0/bin/uninstall_cuda_8.0.pl

卸载之后，还有一些残留的文件夹，之前安装的是CUDA 8.0。可以一并删除：

sudo rm -rf /usr/local/cuda-8.0/

这样就算卸载完了CUDA。

---------------------------------------------------------------------------------------------------

16.04 python-pip安装失败（可能用到）

换中科大源

sudo gedit /etc/apt/sources.list

http://mirrors.ustc.edu.cn/ubuntu/ xenial main restricted universe multiverse

deb http://mirrors.ustc.edu.cn/ubuntu/ xenial-security main restricted universe multiverse

deb http://mirrors.ustc.edu.cn/ubuntu/ xenial-updates main restricted universe multiverse

deb http://mirrors.ustc.edu.cn/ubuntu/ xenial-proposed main restricted universe multiverse

deb http://mirrors.ustc.edu.cn/ubuntu/ xenial-backports main restricted universe multiverse

deb-src http://mirrors.ustc.edu.cn/ubuntu/ xenial main restricted universe multiverse

deb-src http://mirrors.ustc.edu.cn/ubuntu/ xenial-security main restricted universe multiverse

deb-src http://mirrors.ustc.edu.cn/ubuntu/ xenial-updates main restricted universe multiverse

deb-src http://mirrors.ustc.edu.cn/ubuntu/ xenial-proposed main restricted universe multiverse

deb-src http://mirrors.ustc.edu.cn/ubuntu/ xenial-backports main restricted universe multiverse

-----------------------------------------------------------------------------------------------------------------------------------

3090 python cuda11.1 pip 安装pytorch （失败）

-------------

pytorch

https://pytorch.org/get-started/locally/#mac-anaconda

pip install torch==1.7.0+cu110 torchvision==0.8.1+cu110 torchaudio===0.7.0 -f https://download.pytorch.org/whl/torch_stable.html

16.04 python-pip安装失败（可能用到）

pip install numpy==1.16.0 -i https://pypi.tuna.tsinghua.edu.cn/simple

#python3 安装 pytorch

#sudo apt install python3-pip

pip3 install numpy==1.14.4 -i https://pypi.tuna.tsinghua.edu.cn/simple

到这里就已经完成了CUDA 10 和 CUDNN 7.4.2 的安装。可以安装对应的Pytorch的GPU版本测试是否可以正常使用了。

wget http://cdn.npm.taobao.org/dist/python/3.7.3/Python-3.7.3.tgz

File "/usr/local/python3/lib/python3.7/subprocess.py", line 487, in run

output=stdout, stderr=stderr)

subprocess.CalledProcessError: Command '('lsb_release', '-a')' returned non-zero exit status 1

参考https://www.choudalao.com/article/100

sudo find / -name 'lsb_release.py'

sudo cp /usr/lib/python3/dist-packages/lsb_release.py /usr/local/python3/lib/python3.7/

pip3 install numpy --user -i https://pypi.tuna.tsinghua.edu.cn/simple

sudo pip3 install --pre torch torchvision torchaudio -f https://download.pytorch.org/whl/nightly/cu110/torch_nightly.html -i https://pypi.tuna.tsinghua.edu.cn/simple

/usr/local/python3/lib/python3.7/site-packages/torch/cuda/__init__.py:104: UserWarning:

GeForce RTX 3090 with CUDA capability sm_86 is not compatible with the current PyTorch installation.

The current PyTorch install supports CUDA capabilities sm_37 sm_50 sm_60 sm_70 sm_75.

If you want to use the GeForce RTX 3090 GPU with PyTorch, please check the instructions at https://pytorch.org/get-started/locally/

warnings.warn(incompatible_device_warn.format(device_name, capability, " ".join(arch_list), device_name))

-------------

失败原因

参考 https://blog.csdn.net/absxyz19931021/article/details/109228214

RTX30系显卡采用sm_86只有cuda11.1才支持，然而深度学习的pytorch和TensorFlow包括mxnet官方版本只支持到cuda10.2

难道出了新版本前新买的显卡就此吃灰？

不要急还是有办法的

去TensorFlow和pytorch的GitHub的issue里有人反映这个问题（并没有很多人，所以官方没多重视）

方法一：自行编译（适合大神，反正我是不会）

方法二：TensorFlow的解决方法是安装nightly版本2.4.0（实际上已经有2.5.0了但是没找到），如何pip安装whl并不教学

pip安装这个whl后出现有几个dll找不到（没错是cuda11.0不是11.1的，说明此版本还是不支持11.1,但可凑或用）需要自行安装别的版本cudaorcudnn补齐，还是挺麻烦的，所以我用pytorch

pytorch提供了nightly版本1.8.0和torchvison0.8.0虽然也是支持11.0而不是11.1，但已经不会报没有gpu的错了

同样是pip安装whl（官网上没有，去GitHub找）

虽然解放不了rtx的全部战力还是可以凑合用下的

有找不到whl文件的可以找我要，但是我不保证能第一时间看到您的评论

-----------------------------------------------------------------------------------------------------------------------------------------------------

markchalse

关注

5
点赞
踩
36

收藏

觉得还不错? 一键收藏
9
评论
Ubuntu16.04+RTX3090+python3+cuda11.1+ CUDNN 8.04+anaconda3+pytorch-nightly深度学习环境搭建实录

硬件信息cpu Intel(R) Core(TM) i7-10700 CPU @ 2.90GHz显卡 GeForce RTX 3090网卡 Ethernet Connection (17) I219-V内存 62GiB System memory----------------------------------------------------------------------------------换源sudo gedit /etc/apt/sources.li...
复制链接

扫一扫