1、开显存空间,初始化 这里显存就是运行模拟器的机器 2、创建页表,开设备端空间并复制数据 虚拟地址 3、划分形状,传入内核函数,形状参数和设备端数据地址、执行计算 4、复制数据回主机端,释放gpu资源