qemu-kvm下的cuda虚拟化


背景:
 当前AI和大模型火热,对算力的需求越来越高,如何高效的利用算力资源问题被凸显出来了。

目标:
 在虚拟化场景下,单张显卡的算力能同时被多个虚拟机调度使用。

技术:
 cuda虚拟化,一张显卡的cuda算力能同时被多个虚拟机使用。

 基于qemu-kvm虚拟化,在虚拟机内实现一个 vcuda-pci 设备,进行 guest 和 host 之间的数据交互;

  A  guest侧:编写设备驱动,实现 file_ops 相关的接口,承接guest侧应用的 cuda api 请求,支持Linux、Windows虚拟机;
  B  host侧:接收 guest 过来的api接口及参数数据,将参数重新组装,然后调用物理显卡的cuda api,并将所需结果返回给guest侧;

核心点:整体流程的时延,cuda api的支持个数。

##########################################################################

qemu侧(基于6.2.0):

命令行添加如下参数:

-device virtio-vcuda-pci

host侧:

host上有一块1660s的显卡,并且安装了cuda 12.2

启动虚拟机:

/mnt/qemu-debug/bin/qemu-system-x86_64 -enable-kvm -vga std -m 4096 -smp 4 -cpu host -net nic,model=e1000 -net user -hda /home/ubuntu2004.img -vnc 0.0.0.0:0 -device virtio-vcuda-pci

guest侧(只设配了Linux虚拟机,Windows代码移过去就行,都是对device的操作):

可以看到guest虚拟机内是没有显卡的:

虚拟机内的vcuda-pci设备:

加载驱动并生成动态库:

    libcudart.so.12.2.140

测试demo程序 test123.c :

#include <stdio.h>
#include <stdlib.h>
#include <stdint.h>

#include <cuda.h>
#include <builtin_types.h>


int main()
{
    int a;
    int count;
    //char *name = (char *)malloc(100);
    char name[100];
    int len = 50;
    CUresult cuinit = cuInit(0);

    CUcontext pctx;
    cuCtxCreate(&pctx, 0, 0);

const char *err_str;
cuGetErrorName(cuinit, &err_str);
printf("----err_name = %s----\n", err_str);
cuGetErrorString(cuinit, &err_str);
printf("----err_str = %s----\n", err_str);

    cuDriverGetVersion(&a);
    printf("version = %d------\n", a);

    CUdevice device;
    cuDeviceGet(&device, 0);
    printf("device = %d---\n", device);

    cuDeviceGetCount(&count);
    printf("count = %d------\n", count);

    cuDeviceGetName(name, len, device);
    printf("name = %s------\n", name);

    CUuuid *uuid = malloc(sizeof(CUuuid));
    cuDeviceGetUuid(uuid, device);
printf("Uuid = ");
    for (int j = 0; j < sizeof(CUuuid); j++) {
        printf("%02hhX", uuid->bytes[j]);
    }
printf("\n");

    char luid[50];
    unsigned int mask;
    cuDeviceGetLuid(luid, &mask, device);
printf("----luid=%s---mask=%d----\n", luid, mask);

    size_t mem;
    cuDeviceTotalMem(&mem, device);
    printf("TotalMem = %ld------\n", mem);

    int pi;
    //CUdevice_attribute attrib = CU_DEVICE_ATTRIBUTE_MULTIPROCESSOR_COUNT;
    CUdevice_attribute attrib = CU_DEVICE_ATTRIBUTE_COMPUTE_CAPABILITY_MAJOR;
    cuDeviceGetAttribute(&pi, attrib, device);
    printf("---pi = %d--\n", pi);

printf("CU_DEVICE_ATTRIBUTE_COMPUTE_CAPABILITY_MAJOR = %d---\n", CU_DEVICE_ATTRIBUTE_COMPUTE_CAPABILITY_MAJOR);

    CUdeviceptr dptr;
    size_t memalloc = 225002496;
    cuMemAlloc(&dptr, memalloc);
printf("---cuda mem alloc = %lld----\n", dptr);



    cuCtxDestroy(pctx);

    return 0;
}


// gcc -o test123 test123.c  -I /usr/local/cuda/include/ -lm ./libcudart.so.12.2.140

运行效果:

可以看到在虚拟机内调用到了host上的显卡,实现了cuda虚拟化的效果


TODO:
 适配更多的cuda api,算力隔离,QoS,灵活调度策略。。。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值