单显卡插槽安装英伟达Tesla P4 AI加速卡

skywalk8163

已于 2023-12-02 10:30:14 修改

阅读量2.3k

点赞数 24

文章标签：人工智能 pytorch 飞桨

于 2023-12-01 12:56:03 首次发布

本文链接：https://blog.csdn.net/skywalk8163/article/details/134728270

版权

Tesla P4是专业AI显卡，只有70瓦功耗，可以作为AI入门使用。

安装时碰到的几个问题：

首先因为单显卡插槽，就需要先安装好机器，然后ssh登录进行相关配置。安装的时候来回插拔了好多次！

其次就是安装驱动时，报错Nouveau 冲突，需要删除后再安装，具体操作见后面。但是我的这个方法，每次机器启动，都需要再手工删除一下：sudo rmmod nouveau

其它小坑若干。

下面是详细过程，记录留档。

下载P4驱动：

官方驱动 | NVIDIA

当然是在一台pc机下载，然后scp过去：

安装的时候报错：Nouveau

需要禁用Nouveau ，解决方法，看看是否有这个文件：

cat /etc/modprobe.d/nvidia-installer-disable-nouveau.conf

文件内容：
# generated by nvidia-installer
blacklist nouveau
options nouveau modeset=0

有的话，执行：sudo rmmod nouveau

网上也有说这个文件的：

/etc/modprobe.d/blacklist_nouveau.conf

内容同上。

不管用哪个文件，最终结果都应该是执行下面命令没有显示：

lsmod | grep nouveau

提前准备好编译环境

sudo apt install gcc cmake pkg-config

最后开始安装驱动：

sudo ./NVIDIA-Linux-x86_64-515.105.01.run

下载cudnn并安装

https://developer.nvidia.com/rdp/cudnn-archive

下载cuda tools

CUDA Toolkit 11.7 Update 1 Downloads | NVIDIA Developer

wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/cuda-ubuntu1804.pin
sudo mv cuda-ubuntu1804.pin /etc/apt/preferences.d/cuda-repository-pin-600
wget https://developer.download.nvidia.com/compute/cuda/11.7.1/local_installers/cuda-repo-ubuntu1804-11-7-local_11.7.1-515.65.01-1_amd64.deb
sudo dpkg -i cuda-repo-ubuntu1804-11-7-local_11.7.1-515.65.01-1_amd64.deb
sudo cp /var/cuda-repo-ubuntu1804-11-7-local/cuda-*-keyring.gpg /usr/share/keyrings/
sudo apt-get update
sudo apt-get -y install cuda

这里碰到了报错，说它是11.7.1，机器上是11.7，版本低。后来是修改成cuda12版本的适配才通过。

安装python

到清华源下载miniconda，过程略

Index of /anaconda/miniconda/ | 清华大学开源软件镜像站 | Tsinghua Open Source Mirror

安装飞桨

开始使用_飞桨-源于产业实践的开源深度学习平台 (paddlepaddle.org.cn)

安装torch

直接pip安装

测试：

nvidia-smi 可以看到显卡驱动装上了。

Fri Dec  1 03:15:02 2023
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 525.147.05   Driver Version: 525.147.05   CUDA Version: 12.0     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  Tesla P4            Off  | 00000000:05:00.0 Off |                    0 |
| N/A   57C    P0    23W /  75W |      0MiB /  7680MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+

在python里测试torch通过：

Python 3.9.18 (main, Sep 11 2023, 13:41:44)
[GCC 11.2.0] :: Anaconda, Inc. on linux
Type "help", "copyright", "credits" or "license" for more information.
>>> import torch
>>> torch.set_default_device("cuda")
>>> x = torch.randn((2,3))
>>> y = x+ 1
>>> y
tensor([[1.8834, 0.8595, 1.9195],
        [0.9722, 1.5244, 0.5921]], device='cuda:0')

但是现在飞桨还没通过，看文档说是要打开avx....要到bios里设置，又要插拔显卡...

后续，发现该系统cpu比较老，不支持avx 。到飞桨官网找到了关闭avx的编译好的包，在这里：https://www.paddlepaddle.org.cn/whl/linux/mkl/noavx/stable.html

但是都比较老，还需要降cuda版本。我是直接用了2.4.2的cpu版本进行了安装测试，结果还是报错：>>> import paddle
Illegal instruction (core dumped)

先搁置问题。

P4卡使用体验

安装了torch和fastai，简单测试了图像分类，速度还是挺快的，一个epoch 2分钟，个人感觉跟V100没有差过一个数量级，小样本情况下可堪一用，再加上这个价格和功耗的加持，真香！

>>> learn.fine_tune(1)
epoch     train_loss  valid_loss  error_rate  time    
0         0.168299    0.027771    0.008796    00:40                                                        
epoch     train_loss  valid_loss  error_rate  time    
0         0.057213    0.014921    0.004736    00:57

ps，不改散热是真不行，直接烧到90度了。

Sat Dec  2 02:28:49 2023       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 525.147.05   Driver Version: 525.147.05   CUDA Version: 12.0     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  Tesla P4            Off  | 00000000:05:00.0 Off |                    0 |
| N/A   92C    P0    36W /  75W |   3536MiB /  7680MiB |    100%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
                                                                               
+-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
|    0   N/A  N/A      6236      C   python                           3534MiB |

skywalk8163

关注

24
点赞
踩
24

收藏

觉得还不错? 一键收藏
0
评论
单显卡插槽安装英伟达Tesla P4 AI加速卡

Tesla P4是专业AI显卡，只有70瓦功耗，可以作为AI入门使用。安装时碰到的几个问题：首先因为单显卡插槽，就需要先安装好机器，然后ssh登录进行相关配置。安装的时候来回插拔了好多次！其次就是安装驱动时，报错Nouveau 冲突，需要删除后再安装，具体操作见后面。但是我的这个方法，每次机器启动，都需要再手工删除一下：sudo rmmod nouveau其它小坑若干。下面是详细过程，记录留档。
复制链接

扫一扫