(自学《Deep-Learning-with-PyTorch》使用,仅供参考)
1.对于部署模型,本书中主要使用了两个轻量级Python web框架:Flask(http://flask.pocoo.org)和Sanic(https://sanicframework.org)。
Flask是最流行的框架,而Sanic和Flask本质上相同,但比Flask多了一个对Python中async/await的异步操作,提高了效率。
2.对于Pytorch模型,ONNX(开放神经网络交换)格式可以导出模型的标准化格式,这个标准化的格式允许我们使用优化的模型处理器、专门的硬件或云服务来发布。
【Service】
1.异步服务
老式的HTTP是串行的,这意味着当客户端想要在同一个连接总发送多个请求时,下个请求只有在前一个请求得到应答后才发送,如果想发送一批东西,这不是一个好选择。
因此,在使用GPU时,批处理请求通常比一个接一个地处理请求或者并行触发请求更有效。我们的思路就是收集来自几个连接的请求,将它们组装成一批,在GPU上运行,结束后将结果返回给各个请求者。
【注意:在模型运行期间引起延迟是个问题(我们等待自己的模型运行结果是可以的,但是,在请求到达时等待批处理完成,然后再等待我们的模型运行结果,是禁止的),我们不能在GPU上在给定时间内运行多个批次,我们可以通过增大最大批次的大小来使得处理更有效率。】
使用异步服务,我们还需要我们的模型在第二线程上有效运行——我们需要用我们的模型转义Python全局解释锁(GIL)。
2.尽可能少的复制
反复复制会消耗大量的内存和时间,这个很不提倡!
许多HTTP内容都是用Base64编码的,对于图像来说,将其解码为二进制,然后解码为张量,最后在解码为批处理是很复杂费事的。
我们通过部分交付的方式解决——我们使用流式PUT 请求不分配Base64字符串,通过连续追加的方式避免字符串增长。
3.安全
我们要防止溢出和资源耗尽。
一般固定大小的输入张量是好的,因为从它开始几乎不会使Pytorch崩溃。
神经网络容易受到输入操作的影响,从而产生一些期望的、错误的、不可预见的输出(对抗实例)。