大模型推理时提示cutlassF: no kernel found to launch!

一、问题:大模型推理时提示cutlassF: no kernel found to launch!

使用chatglm4-6b、qianwen2.5-7b的模型进行推理,推理错误:cutlassF: no kernel found to launch!

二、代码

代码为glm官方提供

from transformers import AutoTokenizer
from vllm import LLM, SamplingParams

max_model_len, tp_size = 131072, 1
model_name = "THUDM/glm-4-9b-chat"
prompt = [{
   "role": "user", "content": "你好"}]

tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
llm = LLM(
    model=model_name,
    tensor_parallel_size=tp_size,
    max_model_len=max_model_len
### 特定显卡上的CUDA错误解决方案 对于50系列显卡遇到`CUDA error: no kernel image is available for execution on the device`这一问题,核心在于确保使用的CUDA和PyTorch版本与硬件相匹配。如果先前安装的CUDA和PyTorch版本不支持当前显卡架构,则可能导致此类错误发生[^1]。 当面对此情况,建议先确认现有环境中的CUDA以及PyTorch版本,并对比官方文档中关于目标显卡的支持列表,以此判断是否存在兼容性问题。一旦发现版本不符,应当考虑移除旧版软件并重新部署适合的新版本组合。例如,针对某些配置可能需要采用如下命令来指定安装特定版本: ```bash pip install torch==1.8.1+cu111 torchvision==0.9.1+cu111 torchaudio==0.8.1 -f https://download.pytorch.org/whl/torch_stable.html ``` 此外,编写CUDA程序也需注意编译选项的选择,特别是计算能力(Compute Capability)。不同代际的NVIDIA GPU拥有不同的最低要求,开发者应依据实际设备调整代码中的相应设置以确保正确加载内核函数[^2]。 最后值得注意的是,在尝试任何更改前备份好原有数据非常重要;同密切关注NVIDIA官方网站发布的最新驱动更新信息,因为有简单的驱动升级就能解决问题[^3]。 ### 示例代码修正 考虑到上述因素后,下面给出一段经过适当修改后的简单CUDA Hello World程序作为参考: ```cpp #include "cuda_runtime.h" #include "device_launch_parameters.h" #include "stdio.h" // 定义全局内核函数 __global__ void kernel_hello(void) { printf("Hello from thread %d! \n", threadIdx.x); } int main(void) { // 调整线程数量至合理范围 kernel_hello<<<1, 10>>>(); // 同步主机等待所有GPU操作完成 cudaDeviceSynchronize(); // 清理资源 cudaDeviceReset(); return 0; } ``` 通过以上措施通常能够有效缓解乃至彻底消除因版本冲突引发的相关异常状况。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值