Low Latency RNN Inference with Cellular Batching
Low Latency RNN Inference with Cellular Batching单元批处理形成低延迟RNN推断(预测)摘要对预先训练好的神经网络模型进行性能推断必须要求能够有低延迟,但是这往往与高吞吐量相矛盾 现有的深度学习系统通过使用批处理来提升吞吐量,但是在动态流图的循环神经网络中性能较差 我们提出单元批量处理技术,在RNN推论中对延迟和吞吐量都能提升 不像已...
原创
2019-11-22 09:25:37 ·
421 阅读 ·
0 评论