Nvidia GPU 模型训练环境安装

服务器类型:Nvidia GPU服务器

操作系统:Ubuntu 16.04 LTS

基础软件:Docker-ce,Nvidia-Docker,cuda,Nvidia driver等

辅助软件:nvidia-prime,lrzsz等(非必须)

常用命令:apt-get install (安装软件);apt remove (卸载软件);

Apt list (查询软件列表,包含已安装);dpkg -i  (安装deb包);

Dpkg -l (搜索已安装 软件,可配合grep) Dpkg -P (卸载软件 )

 

安装步骤:

注意:全新的环境除nvidia driver外,另个三个软件应该在全新环境中未涉及,但保险起见,依然要求将driver卸载后再进行重新安装 ;

一、卸载及检查:

1./usr/bin/nvidia-uninstall (卸载驱动);

2./usr/local/cuda/bin/uninstall_cuda_8.0.pl (卸载cuda);

3.docker version (查看docker版本);

4.nvidia-docker version (查看nvidia-docker 版本);

注:以上服务docker和nvidia-docker不强制要求,可卸载与不卸载,但版本要符合兼容要求即可 ;

5.find / -name cuda (检查各安装软件的文件,是否有残留);

6.nvidia-settings (查询本机gpu相关信息,仅限于本机图形化界面使用,远程方式无法使用此命令)

二、安装 :

1.切换到软件所有目录并切换到root权限并附于安装文件的执行权限(+x);

2. ./NVIDIA-Linux-x86_64-375.66.run (安装driver,按步骤一步一步来即可);

3. ./cuda_8.0.61_375.26_linux.run (安装cuda,除driver一项选择no外,其它默认或yes均可);

4.dpkg -i docker-ce_17.06.0-ce-0-ubuntu_amd64.deb (安装docker-ce,docker-ce,docker.io,docker-engine 只能安装一个);

5.dpkg -i nvidia-docker_1.0.1-1_amd64.deb (安装nvidia-docker,依赖于docker-ce,各版本依赖不同,具体参考官网);

三、检查&启动服务

1.nvidia-smi (查看dirver版本);

2.nvcc -V(查看cuda版本);

3./usr/local/cuda/extras/demo_suite/deviceQuery (查看cuda 驱动及运行环境版本,一致会返回Result=Pass的结果,不一致会返回 Result=Fail及具体错误,如出现错误需要修正错误,否则docker、nvidia或训练模型时会出错);

4.prime-select query (查看当前使用的显卡类型,返回nvidia是正常的,其他则配置不对,需要安装 nvidia-prime软件包);

5.环境变量初始化(/etc/profile),在文件最后增加以下两行环境信息

       export PATH=/usr/local/cuda-8.0/bin:$PATH

       export LD_LIBRARY_PATH=/usr/local/cuda-8.0/lib64

       设置完成后重新登录后生效或source /etc/profile 生效

6.systemctl start docker (启动docker服务);

7.systemctl start nvidia-docker (启动nvidia-docker服务,一般会同docker服务启动,如未启动需要手动启动);

8.systemctl enable docker (docker服务开机自动启动);

9.docker version (查看docker版本);

10.nvidia-docker version (查看nvidia-docker 版本);

注:以上检查及服务启动正常后可进行相关模型的docker容器的run(运行);

四、训练及训练完成模型对外提供服务

参见Yolo训练环境或官方手

五、常见问题

Q:Could not load UVM kernel module. Is nvidia-modprobe installed?

A:nvidia gpu驱动未正常安装,请重装安装;

Q:unsupported CUDA version: driver 0.0 < image 8.0 ?

A:安装的cuda版本低于训练所需要的版本,需要安装指定的版本;

Q:CUDA Error: CUDA driver version is insufficient for CUDA runtime version?

A:安装的CUDA的驱动版本与运行环境环境不一致所致,重新安装驱动与运行环境,使其检查结果为Result=PASS (deviceQuery 工具);

Q:安装Nvidia驱动过程中,如使用的图形化界面安装服务有可能出现无法安装的情况?

A:请退出退出图形化界面,使用 init 1 切换到单用户终端模型式进行驱动的安装,安装完成后再通过 inti 2切换成图形及网络模型下。

转载于:https://my.oschina.net/farces/blog/2209486

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值