T4安装踩坑记录

T4不能被识别

目前还在进行中,有一些结论不太准确,我尽量把所有可能的猜测都列下;有些猜测不用完全去确认也可以进行下去

t4是计算卡,不能单独使用。猜测如下

  • 它需要配合其他有视频输出口的显卡使用(非充分必要条件——和其他有视频输出口的显卡配合时,可以正常使用;反过来是否可以使用主板的视频输出口也可以,还未验证)
  • 它需要有一个视频输出口,比如主板上的视频输出就可以(未验证)
  • 它只需要有一次验证成功的视频输出即可,和其他显卡配合安装后,取出其他卡,也可以正常开机,但是还是不能被系统识别(需要系统的验证)

硬件信息

  • nmap -sP 192.168.1.1/24 可以用来搜索局域网内的在用ip,可以在没视频输出时也可访问ubuntu server
  • lshw -c display 列出硬件中display类,list hardware class about display
  • lspci |grep -i nvidia 列出pci上关于nvidia的信息 list pci接口
  • hwinfo 比lshw更详细的信息

踩坑记录

  • T4不能识别,单独插入t4后,不能正常开机。是需要配合其他视频输出端口的显卡,并且需要散热。
  • 安装了低端显卡605,lshw可以搜索到t4.但是驱动和605不匹配,驱动安装不上,失败!
  • 安装1080ti,可以安装驱动,重启后,可以nvidia-smi识别T4
  • 取出1080ti,只保留了t4一个显卡,可以正常开机,但是nvidia不能使用,t4也找不到
  • 更换t4插槽位置,不能正常开机。
  • 安装好驱动后,安装605低端显卡和t4,nvidia可以识别T4,但是t4发热量很大,原因不明。配合1080ti时,有一次几乎没有发热。过程中始终未运行任何程序。
    --------- 至此始终没有试验主板的视频接口 ----------

环境变量

  • 将export……写入bashrc等,使用source刷新
  • ldconfig刷新cuda等路径或者lib64

散热

T4是被动散热的,实际上,它的发热量一点也不小。不安装主动散热的话,很快就会超过它的正常工作温度,使其和主机断开连接,导致出现错误Unable to determine the device handle for GPU 0000:B3:00.0:(B3应该是pci插槽代号)
解决方法https://blog.csdn.net/junmuzi/article/details/80707343
也就是按此方法给相应文件添加字段后,使用update-grub后重启。
上面提到的相关文件,大有来头。其实开机时选择ubuntu的启动类型,也就是recovery模式,或者修改成开机进入emergency mode,大概都是跟这相关的。因为想要开机进入这两种模式要修改的内容也是刚给出的链接中提到的字段。
为什么要进入这两种模式呢,当系统出了问题不能进入的时候,这种模式可以帮助处理一些问题。
刚才都是权宜之计,有效的方法还是主动散热。下面是youtube上的自行加装Tesla散热,感兴趣可以去搜视频名字。我直接配了一个笔记本用的抽风机,T4温度稳定在84度左右
在这里插入图片描述

在T4上运行retinanet的补充

如何做量化
启动docker
sudo docker build -t retinanet:latest retinanet-examples 
sudo docker run --gpus '"device=0"' --name=retinanet --ipc=host -it -v /home1/datasets/:/datasets retinanet:latest
bash 跑一些测试
#/bin/bash
clear
for w in 640 896 1280
do
for ii in 1 2
do
    hh=$(($ii*$w))
    echo $hh
    echo "FP32 $w * $hh"
    retinanet infer pet_rpn50_retinan.pth --images  /datasets/coco/images/val2017/ --annotations /datasets/coco/annotations/instances_val2017.json --batch 1 --resize $w --max-size $hh
    echo "FP16 $w * $hh"
    retinanet  export pet_rpn50_retinan.pth fp16_$w_$hh.plan --batch 8 --size $w $hh
    retinanet infer fp16_$w_$hh.plan --images  /datasets/coco/images/val2017/ --annotations /datasets/coco/annotations/instances_val2017.json --resize $w --max-size $hh --batch 1
    echo "int8 $w * $hh"
    python retinanet/main.py export pet_rpn50_retinan.pth  int8_$w_$hh.plan --batch 8  --size $w $hh --int8 --calibration-images /datasets/coco/images/val2017/ --calibration-table  model_calibration_table
    etinanet infer int8_$w_$hh.plan --images  /datasets/coco/images/val2017/ --annotations /datasets/coco/annotations/instances_val2017.json --batch 1 --resize $w --max-size $hh
done
done
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值