VDI中搭建地平线J6m量化环境以及示例
参考链接:
链接1:https://auto-developer.horizon.cc/bloggerdetail?bid=618460281014956032
链接2:http://10.119.106.50:8080/guide/plugin/qat_quickstart/qat_quickstart.html(此链接需要运行oe包里的OE\horizon_j6_open_explorer_v3.0.22_doc\horizon_j6_open_explorer_3.0.22_compiled_doc下的start)
如下图:
1,环境搭建
1.1 安装准备
一、安装docker
ubuntu docker离线安装教程
离线安装包下载#
docker离线安装时需要三个安装包:containerd.io包、docker-ce-cli包,docker-ce包,下载地址:https://download.docker.com/linux/ubuntu/dists/xenial/pool/stable/amd64/
containerd.io包下载https://download.docker.com/linux/ubuntu/dists/xenial/pool/stable/amd64/containerd.io_1.4.6-1_amd64.deb
docker-ce-cli包下载 https://download.docker.com/linux/ubuntu/dists/xenial/pool/stable/amd64/docker-ce-cli_20.10.73-0ubuntu-xenial_amd64.deb
docker-ce包下载 https://download.docker.com/linux/ubuntu/dists/xenial/pool/stable/amd64/docker-ce_20.10.73-0ubuntu-xenial_amd64.deb
注意: docker-ce-cli包 和 docker-ce包 版本要相等
docker卸载
查询相关软件包
dpkg -l | grep docker
删除这个包
sudo apt remove --purge docker.io
二、安装NVIDIA-container-toolkit
1.下载安装包
链接:https://mirror.cs.uchicago.edu/nvidia-docker/libnvidia-container/stable/
选择对应系统版本后下载文件(没有ubuntu24我下载的最新的ubuntu20.04)
上述链接不需要翻墙
文件包括:
libnvidia-container1_xxx_amd64.deb
libnvidia-container-tools_xxx_amd64.deb
nvidia-docker2_xxx_all.deb
nvidia-container-runtime_xxx_all.deb
nvidia-container-toolkit_xxx_amd64.deb
原文链接:https://blog.csdn.net/qq_43548590/article/details/143193208
1.2 安装docker和nvidia container toolkit
1.2.1 安装docker
安装 containerd.io包
sudo dpkg -i containerd.io_1.4.6-1_amd64.deb
安装docker-ce-cli包
sudo dpkg -i docker-ce-cli_20.10.73-0ubuntu-xenial_amd64.deb
安装docker-ce包
sudo dpkg -i docker-ce_20.10.73-0ubuntu-xenial_amd64.deb
查看docker版本号
sudo docker --version
1.2.2 安装nvidia container toolkit
2.安装下载包
dpkg -i ./lib* ./nvidia*
1
3.重新加载daemon文件和docker
systemctl daemon-reload
systemctl restart docker
1
2
4.查看nvidia-docker 版本
nvidia-docker -v #查看版本
nvidia-docker version
dpkg -l | grep nvidia-docker #是否已安装
原文链接:https://blog.csdn.net/qq_43548590/article/details/143193208
2,环境运行
2.1 加载docker镜像
3,量化示例
3.1 qat量化示例
3.1.1 数据集和模型
3.1.2 量化过程
4,遇到问题
1,环境搭建
1.1 安装准备
需要根据VDI里面的Ubuntu版本下载
需要将oe包,地平线提供的gpu的docker镜像,以及VDI中安装docker包,NVIDIA Container Toolkit包;(由于VDI网络限制,所以以上都是下载离线包进行安装)
安装docker需要的包:
03盘路径:Y:\ltt\dockers\docker
安装NVIDIA Container Toolkit的包:
03盘路径:Y:\ltt\dockers\nvidia
1.2 安装docker和nvidia container toolkit
按照链接2中的环境部署操作,VDI中有gpu环境;VDI中安装离线包需要用到dpkg工具;
1.2.1 安装docker
安装containerd.io包
安装docker-ce-cli包
安装docker-ce包
sudo dpkg -i containerd.io_1.4.6-1_amd64.deb
sudo dpkg -i docker-ce_20.10.73-0ubuntu-xenial_amd64.deb
sudo dpkg -i docker-ce_20.10.73-0ubuntu-xenial_amd64.deb
安装完成后 docker --version查看是否安装成功;
1.2.2 安装nvidia container toolkit
安装下载包
dpkg -i ./lib* ./nvidia*
重新加载daemon文件和docker
systemctl daemon-reload
systemctl restart docker
查看nvidia-docker版本
nvidia-docker -v #查看版本
nvidia-docker version
dpkg -l | grep nvidia-docker #是否已安装
2,环境运行
2.1 加载docker镜像
gpu版本docker镜像路径:Y:\ltt\dockers\docker_open_explorer_ubuntu_22_j6_gpu_v3.0.22.tar
1,加载离线镜像到本地:
docker load -i docker_openexplorer_xxx.tar.gz
查看是否成功:
2,运行docker容器:
sh run_docker.sh data/
data 为评测数据集文件夹路径,请提前创建好后再运行命令,否则将导致加载问题。
3,量化示例
3.1 qat量化示例
3.1.1 数据集和模型
由于需要往VDI中传输数据,所以使用cifar10数据集,路径在Y:\ltt\dockers\cifar-10-python
使用oe包现有的mobilenetv2模型
预训练路径:Y:\ltt\dockers\mobilenet_v2-b0353104.pth
3.1.2 量化过程
参考链接1分别执行float训练,校准模型,qat训练,定点模型推理和部署模型分别如下:
float
calib
qat
int_infer
compile
产出物如下:
4,遇到问题
在进入docker容器以后,运行命令报错:
pthread_create failed for thread 1 of 8: Operation not permitted
rlimit_nproc-1 current -1 max
由于用户权限受限
解决:在run_docker.sh文件里面加上–privileged=true可解决,或者升级最新docker版本(没试过)
这个例子目前封装的比较严重,下一步尝试从config里面进行训练等操作。