前面已经研究过tensorflow,onnx的模型部署方案,这篇就来记录一下pyTorch模型的C++部署方案。
对于pyTorch,我的基本应用思路是:
- 采用pytorch进行训练模型,测试模型
- 用libtorch实现前向传播,推理部署
注意事项写在前面:
-
注意 libtorch和VC版本对应。
比如libtorch1.4对应的VC2015,libtorch1.6对应的VC2017。 -
注意libtorch和pyTorch版本的对应。尽量要使用同一个版本号的。
比如我用的就是pyTorch1.4版本和libTorch1.4版本 -
注意libtorch/pyTorch和Cuda的版本对应。
比如cuda10/10.1可以通用,Cuda10.2,cuda11.0就不能通用
基本环境
- 操作系统:Win10
- 编译器:VS 2015
- Cuda版本:CUDA10+cuDNN7.6.5
- Python版本:Anaconda3-5.2.0-Windows-x86_64(对应python3.6.5)
- Pytorch版本:1.4.0
- Libtorch版本:1.4.0
说明:
对于Anaconda、VC、CUDA/cuDNN这些基础环境的安装,比较简单,就直接略过了。
1.pyTorch安装
Torch历史版本下载
https://pytorch.org/get-started/previous-versions/
//CUDA 10.0/10.1
conda install pytorch==1.4.0 torchvision==0.5.0 cudatoolkit=10.1 -c pytorch
安装完成后直接测试:
python
import torch
print(torch.__version__)
print (torch.cuda.is_available())
能正常输出版本号和支持cuda,这表示安装成功。
2.训练模型
这里可以直接通过torchvision直接下载一个预处理模型,也可以自己训练。
如果是有现成的预处理模型,就跳到下一步模型转换。
这里为了方便记录流程,我采用的训练模型。
下面是mnist手写字体识别的模型训练:
import argparse
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
from torchvision import datasets, transforms
import PIL
class Net(nn.Module):
def __init__(self):
super(Net, self).__init__()
self.conv1 = nn.Conv2d(1, 10, kernel_size=5)
self.conv2 = nn.Conv2d(10, 20, kernel_size=5)
self.conv2_drop = nn.Dropout2d()
self.fc1 = nn.Linear(320, 50)
self.fc2 = nn.Linear(50, 10)
def forward(self, x):
x = self.conv1(x)
x = F.relu(F.max_pool2d(x, 2))
x = self.conv2(x)
x = F.relu(F.max_pool2d(self.conv2_drop(x), 2))
x = x.view(-1, 320)
x = F.relu(self.fc1(x))
x = F.dropout(x, training=self.training)
x = self.fc2(x)
return F.log_softmax(x, dim=1)
def train(args, model, device, train_loader, optimizer, epoch):
model.train()
for batch_idx, (data, target) in enumerate(train_loader):
data, target = data.to(device), target.to(device)
optimizer.zero_grad()
output = model(data)
loss = F.nll_loss(output, target)
loss.backward()
optimizer.step()
if batch_idx % args.log_interval == 0:
print('Train Epoch: {} [{}/{} ({:.0f}%)]\tLoss: {:.6f}'.format(
epoch, batch_idx * len(data), len(train_loader.datase