T4安装踩坑记录

最新推荐文章于 2024-12-23 14:15:36 发布

库页

最新推荐文章于 2024-12-23 14:15:36 发布

阅读量6.4k

点赞数

CC 4.0 BY-SA版权

分类专栏：备忘文章标签： Nvidia T4 安装驱动

本文链接：https://blog.csdn.net/daniaokuye/article/details/98037207

备忘专栏收录该内容

11 篇文章

订阅专栏

T4不能被识别

目前还在进行中，有一些结论不太准确，我尽量把所有可能的猜测都列下；有些猜测不用完全去确认也可以进行下去

t4是计算卡，不能单独使用。猜测如下

它需要配合其他有视频输出口的显卡使用（非充分必要条件——和其他有视频输出口的显卡配合时，可以正常使用；反过来是否可以使用主板的视频输出口也可以，还未验证）
它需要有一个视频输出口，比如主板上的视频输出就可以（未验证）
它只需要有一次验证成功的视频输出即可，和其他显卡配合安装后，取出其他卡，也可以正常开机，但是还是不能被系统识别（需要系统的验证）

硬件信息

nmap -sP 192.168.1.1/24 可以用来搜索局域网内的在用ip，可以在没视频输出时也可访问ubuntu server
lshw -c display 列出硬件中display类，list hardware class about display
lspci |grep -i nvidia 列出pci上关于nvidia的信息 list pci接口
hwinfo 比lshw更详细的信息

踩坑记录

T4不能识别，单独插入t4后，不能正常开机。是需要配合其他视频输出端口的显卡，并且需要散热。
安装了低端显卡605，lshw可以搜索到t4.但是驱动和605不匹配，驱动安装不上，失败！
安装1080ti，可以安装驱动，重启后，可以nvidia-smi识别T4
取出1080ti，只保留了t4一个显卡，可以正常开机，但是nvidia不能使用，t4也找不到
更换t4插槽位置，不能正常开机。
安装好驱动后，安装605低端显卡和t4，nvidia可以识别T4，但是t4发热量很大，原因不明。配合1080ti时，有一次几乎没有发热。过程中始终未运行任何程序。
--------- 至此始终没有试验主板的视频接口 ----------

环境变量

将export……写入bashrc等，使用source刷新
ldconfig刷新cuda等路径或者lib64

散热

T4是被动散热的，实际上，它的发热量一点也不小。不安装主动散热的话，很快就会超过它的正常工作温度，使其和主机断开连接，导致出现错误Unable to determine the device handle for GPU 0000:B3:00.0:（B3应该是pci插槽代号）
解决方法https://blog.csdn.net/junmuzi/article/details/80707343
也就是按此方法给相应文件添加字段后，使用update-grub后重启。
上面提到的相关文件，大有来头。其实开机时选择ubuntu的启动类型，也就是recovery模式，或者修改成开机进入emergency mode，大概都是跟这相关的。因为想要开机进入这两种模式要修改的内容也是刚给出的链接中提到的字段。
为什么要进入这两种模式呢，当系统出了问题不能进入的时候，这种模式可以帮助处理一些问题。
刚才都是权宜之计，有效的方法还是主动散热。下面是youtube上的自行加装Tesla散热，感兴趣可以去搜视频名字。我直接配了一个笔记本用的抽风机，T4温度稳定在84度左右
在这里插入图片描述

在T4上运行retinanet的补充

如何做量化

https://arleyzhang.github.io/articles/923e2c40/

启动docker

sudo docker build -t retinanet:latest retinanet-examples 
sudo docker run --gpus '"device=0"' --name=retinanet --ipc=host -it -v /home1/datasets/:/datasets retinanet:latest

bash 跑一些测试

#/bin/bash
clear
for w in 640 896 1280
do
for ii in 1 2
do
    hh=$(($ii*$w))
    echo $hh
    echo "FP32 $w * $hh"
    retinanet infer pet_rpn50_retinan.pth --images  /datasets/coco/images/val2017/ --annotations /datasets/coco/annotations/instances_val2017.json --batch 1 --resize $w --max-size $hh
    echo "FP16 $w * $hh"
    retinanet  export pet_rpn50_retinan.pth fp16_$w_$hh.plan --batch 8 --size $w $hh
    retinanet infer fp16_$w_$hh.plan --images  /datasets/coco/images/val2017/ --annotations /datasets/coco/annotations/instances_val2017.json --resize $w --max-size $hh --batch 1
    echo "int8 $w * $hh"
    python retinanet/main.py export pet_rpn50_retinan.pth  int8_$w_$hh.plan --batch 8  --size $w $hh --int8 --calibration-images /datasets/coco/images/val2017/ --calibration-table  model_calibration_table
    etinanet infer int8_$w_$hh.plan --images  /datasets/coco/images/val2017/ --annotations /datasets/coco/annotations/instances_val2017.json --batch 1 --resize $w --max-size $hh
done
done