qemu-kvm下的cuda虚拟化

li_Jiejun

已于 2024-03-26 10:47:38 修改

阅读量815

点赞数

文章标签：云计算

于 2023-09-20 14:46:39 首次发布

本文链接：https://blog.csdn.net/u014022631/article/details/133080000

版权

背景：
当前AI和大模型火热，对算力的需求越来越高，如何高效的利用算力资源问题被凸显出来了。

目标：
在虚拟化场景下，单张显卡的算力能同时被多个虚拟机调度使用。

技术：
cuda虚拟化，一张显卡的cuda算力能同时被多个虚拟机使用。

基于qemu-kvm虚拟化，在虚拟机内实现一个 vcuda-pci 设备，进行 guest 和 host 之间的数据交互；

A guest侧：编写设备驱动，实现 file_ops 相关的接口，承接guest侧应用的 cuda api 请求，支持Linux、Windows虚拟机；
B host侧：接收 guest 过来的api接口及参数数据，将参数重新组装，然后调用物理显卡的cuda api，并将所需结果返回给guest侧；

核心点：整体流程的时延，cuda api的支持个数。

##########################################################################

qemu侧(基于6.2.0)：

命令行添加如下参数：

-device virtio-vcuda-pci

host侧：

host上有一块1660s的显卡，并且安装了cuda 12.2

启动虚拟机：

/mnt/qemu-debug/bin/qemu-system-x86_64 -enable-kvm -vga std -m 4096 -smp 4 -cpu host -net nic,model=e1000 -net user -hda /home/ubuntu2004.img -vnc 0.0.0.0:0 -device virtio-vcuda-pci

guest侧（只设配了Linux虚拟机，Windows代码移过去就行，都是对device的操作）：

可以看到guest虚拟机内是没有显卡的：

虚拟机内的vcuda-pci设备：

加载驱动并生成动态库：

libcudart.so.12.2.140

测试demo程序 test123.c ：

#include <stdio.h>
#include <stdlib.h>
#include <stdint.h>

#include <cuda.h>
#include <builtin_types.h>


int main()
{
    int a;
    int count;
    //char *name = (char *)malloc(100);
    char name[100];
    int len = 50;
    CUresult cuinit = cuInit(0);

    CUcontext pctx;
    cuCtxCreate(&pctx, 0, 0);

const char *err_str;
cuGetErrorName(cuinit, &err_str);
printf("----err_name = %s----\n", err_str);
cuGetErrorString(cuinit, &err_str);
printf("----err_str = %s----\n", err_str);

    cuDriverGetVersion(&a);
    printf("version = %d------\n", a);

    CUdevice device;
    cuDeviceGet(&device, 0);
    printf("device = %d---\n", device);

    cuDeviceGetCount(&count);
    printf("count = %d------\n", count);

    cuDeviceGetName(name, len, device);
    printf("name = %s------\n", name);

    CUuuid *uuid = malloc(sizeof(CUuuid));
    cuDeviceGetUuid(uuid, device);
printf("Uuid = ");
    for (int j = 0; j < sizeof(CUuuid); j++) {
        printf("%02hhX", uuid->bytes[j]);
    }
printf("\n");

    char luid[50];
    unsigned int mask;
    cuDeviceGetLuid(luid, &mask, device);
printf("----luid=%s---mask=%d----\n", luid, mask);

    size_t mem;
    cuDeviceTotalMem(&mem, device);
    printf("TotalMem = %ld------\n", mem);

    int pi;
    //CUdevice_attribute attrib = CU_DEVICE_ATTRIBUTE_MULTIPROCESSOR_COUNT;
    CUdevice_attribute attrib = CU_DEVICE_ATTRIBUTE_COMPUTE_CAPABILITY_MAJOR;
    cuDeviceGetAttribute(&pi, attrib, device);
    printf("---pi = %d--\n", pi);

printf("CU_DEVICE_ATTRIBUTE_COMPUTE_CAPABILITY_MAJOR = %d---\n", CU_DEVICE_ATTRIBUTE_COMPUTE_CAPABILITY_MAJOR);

    CUdeviceptr dptr;
    size_t memalloc = 225002496;
    cuMemAlloc(&dptr, memalloc);
printf("---cuda mem alloc = %lld----\n", dptr);



    cuCtxDestroy(pctx);

    return 0;
}


// gcc -o test123 test123.c  -I /usr/local/cuda/include/ -lm ./libcudart.so.12.2.140

运行效果：

可以看到在虚拟机内调用到了host上的显卡，实现了cuda虚拟化的效果

TODO：
适配更多的cuda api，算力隔离，QoS，灵活调度策略。。。

li_Jiejun

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
qemu-kvm下的cuda虚拟化

A guest侧：编写设备驱动，实现 open、close、read、write、ioctl 接口，承接guest侧应用的 cuda api 请求；B host侧：接收 guest 过来的api接口及参数数据，将参数重新组装，然后调用物理显卡的cuda api，并将所需结果返回给guest侧；当前AI和大模型火热，对算力的需求越来越高，如何高效的利用算力资源问题被凸显出来了。cuda虚拟化，一张显卡的cuda算力能同时被多个虚拟机使用。在虚拟化场景下，单张显卡的算力能同时被多个虚拟机调度使用。
复制链接

扫一扫