《Deep-Learning-with-PyTorch》学习笔记Chapter15 Deployment(一)

(自学《Deep-Learning-with-PyTorch》使用,仅供参考)

1.对于部署模型,本书中主要使用了两个轻量级Python web框架:Flask(http://flask.pocoo.org)和Sanic(https://sanicframework.org)。

Flask是最流行的框架,而Sanic和Flask本质上相同,但比Flask多了一个对Python中async/await的异步操作,提高了效率。

2.对于Pytorch模型,ONNX(开放神经网络交换)格式可以导出模型的标准化格式,这个标准化的格式允许我们使用优化的模型处理器、专门的硬件或云服务来发布。

【Service】

1.异步服务

老式的HTTP是串行的,这意味着当客户端想要在同一个连接总发送多个请求时,下个请求只有在前一个请求得到应答后才发送,如果想发送一批东西,这不是一个好选择。

因此,在使用GPU时,批处理请求通常比一个接一个地处理请求或者并行触发请求更有效。我们的思路就是收集来自几个连接的请求,将它们组装成一批,在GPU上运行,结束后将结果返回给各个请求者。

【注意:在模型运行期间引起延迟是个问题(我们等待自己的模型运行结果是可以的,但是,在请求到达时等待批处理完成,然后再等待我们的模型运行结果,是禁止的),我们不能在GPU上在给定时间内运行多个批次,我们可以通过增大最大批次的大小来使得处理更有效率。】

使用异步服务,我们还需要我们的模型在第二线程上有效运行——我们需要用我们的模型转义Python全局解释锁(GIL)。

2.尽可能少的复制

反复复制会消耗大量的内存和时间,这个很不提倡!

许多HTTP内容都是用Base64编码的,对于图像来说,将其解码为二进制,然后解码为张量,最后在解码为批处理是很复杂费事的。

我们通过部分交付的方式解决——我们使用流式PUT 请求不分配Base64字符串,通过连续追加的方式避免字符串增长。

3.安全

我们要防止溢出和资源耗尽。

一般固定大小的输入张量是好的,因为从它开始几乎不会使Pytorch崩溃。

神经网络容易受到输入操作的影响,从而产生一些期望的、错误的、不可预见的输出(对抗实例)。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值