c++与libtorch混合编程:std:runtime_error及c10:error报错分析
模型文件pt转换要点
pth转换成pt文件时,尽量用cuda转换,即
input_tensor.cuda()
#模型输入张量放在gpu上
model.cuda()
#模型放在gpu上
因为用gpu转换后的模型文件,在c++中可以在cpu上进行预测也可以在gpu上进行预测,而用cpu转换后的pt模型,在c++中只能用cpu预测。
在c++中,device=torch::kCPU时,报错分析
经过对c++代码的拆分
//在torch::kCPU
auto outputs = module.forward(input);
auto tu_outputs = outputs.toTuple();
发现module.forward(input)运行通过,报错在下一句,即outputs.toTuple()。类型转换时报错,报错原因可能在python中的模型返回值上。
首先,如果你的模型返回一个值,可以用toTensor()去转换。
我的python模型返回值是
return [x2,x8,x10]
一个list,这就是报错原因,把python代码改成
return (x2,x8,x10)
返回值类型是一个tuple,此时c++中可以用.toTuple()进行类型转换。或者不改变python代码,c++用.toList()进行转换。问题得以解决,再运行,成功通过。
在c++中,device=torch::kCUDA时,报错分析
在forward()时,std::runtime_error
首先 在c++中判断cuda是否可以使用
cout << "cuda是否可用:" << torch::cuda::is_available() << endl;
cout <<"cudnn是否可用:" <<torch::cuda::cudnn_is_available() << endl;
如果是Ture(1),则cuda可以使用,如果为False(0),cuda不可以使用,我当时就是cuda不能使用,但是在python中cuda可以使用,是c++运行环境配置问题。
解决方法:
项目右键->属性->链接器->命令行->其他选项输入->/INCLUDE:?warp_size@cuda@at@@YAHXZ
问题得以解决,cuda为ture(1)
第二步 判断模型及数据是否放到了cuda上
device = torch::kCUDA;
try
{
module = torch::jit::load(modelPath, device);
}
catch (const c10::Error& e)
{
std::cerr << "Error\n";
}
如果抛出错误,要么模型路径不对,要么没有用cuda加载
cout << "photo的device:" << photo.device() << endl;
判断数据是否在cuda上,通过检测发现模型和数据均位于cuda上,排除此出错原因
第三步 排除libtorch版本原因,libtorch有cpu版本和cuda版本,cuda版本可以在cuda和cpu上使用,cpu版本只能在cpu上使用,因为我曾经用c++在gpu上预测过模型,所以确定版本是cuda版本,排除此错误。
第四步 排除超出显存原因 可以用两种方式排除
建议在c++代码中加入torch::NoGradGuard no_grad;可以预防梯度计算,减小显存
input.emplace_back(photo);
torch::NoGradGuard no_grad;
auto outputs = module.forward(input).toTuple();
//放在前向传播语句前,input.emplace_back(photo);语句后
1.在此电脑上用batch_size=1,在cuda上进行训练,不报错,排除超出显存原因
2.打开任务管理器,在c++运行时查看gpu占用情况,可以确定显存是否够用。
第五步 排除网络结构及转换问题
因为在cpu中forward()是通过运行的,所以确定网络结构及转换是没有问题的
第六步 因为排除了cuda,libtorch,网络等以上问题,所以猜测问题可能出现在cuda与libtorch交接上,即cuda与libtorch版本不对应,所以交接出现问题。通过替换cuda版本,std::runtime_error问题得以解决。
运行通过
这就是我排除掉的错误及排除错误的思路,希望对大家有所帮助。