目录
一、简介
本文主要针对国产加速器海光DCU 设备插件的安装与初步使用测试进行介绍,包括物理机、容器环境与Kubernetes 集群环境下DCU 设备的调用和监控。
二、基础软硬件环境
2.1 硬件环境
- 需要宿主机安装配置了DCU
2.2 软件环境
- 需要保证Kubernetes 集群版本在1.18 及以上;
- 需要在宿主机安装DCU 驱动程序,可以在光合开发者社区下载:
https://cancon.hpccube.com:65024/6/main
- 需要在光合开发者社区下载Kubernetes 插件:
https://cancon.hpccube.com:65024/5/main
2.3 插件列表
三、DCU设备插件部署
3.1 部署DCU-Exporter
DCU-Exporter 现支持物理机部署、docker 容器部署、Kubernetes 集群部署三种方式。
3.1.1 物理机部署
前置条件:
- 在安装DCU 的节点上,安装dtk 并使环境变量生效(推荐方法);
- 或者将目标主机操作系统对应dtk 的dtk/rocm_smi/lib 目录下librocm_smi64.so.2.8
动态链接库放置到目标主机/usr/lib64 目录下, 并在/usr/lib64 目录创建指向
librocm_smi64.so.2.8 的软链接librocm_smi64.so.2 和指向librocm_smi64.so.2 的软链
接librocm_smi64.so。
dcu-exporter 启动直接运行可执行文件dcu-exporter-v2,dcu-exporter-v2 支持启动参数
和环境变量两种方式指定exporter 服务端口。启动时添加-port 参数指定端口,环境变量
DCU_EXPORTER_LISTEN 也可指定服务端口。优先启动参数指定,其次环境变量指定,最后默
认16080。
./dcu-exporter-v2 -port=16080
使用curl 命令来查看指标:
curl localhost:16080/metrics
看到如下的输出示例,显示了DCU 内存规格、温度等信息:
# HELP dcu_memorycap_bytes dcu metrics of gauge
# TYPE dcu_memorycap_bytes gauge
dcu_memorycap_bytes{device_id="T8R1380013061601",minor_number="0",name="",no
de="dcunode3",pcieBus_number="0000:f6:00.0"} 3.4342961152e+10
dcu_memorycap_bytes{device_id="T8R1380019021101",minor_number="1",name="",no
de="dcunode3",pcieBus_number="0000:6a:00.0"} 3.4342961152e+10
# HELP dcu_temp dcu metrics of gauge
# TYPE dcu_temp gauge
dcu_temp{device_id="T8R1380013061601",minor_number="0",name="",node="dcunode
3",pcieBus_number="0000:f6:00.0"} 46
dcu_temp{de