推理加速
文章平均质量分 90
JasonLiu1919
微信公众号《小窗幽记机器学习》。却顾所来径,苍苍横翠微。个人微信号:onepieceand
展开
-
模型推理加速系列 | 08:TensorRT-LLM助力LLM高性能推理
其实小编之前有介绍过关于如何用TensorRT提升模型推理速度,感兴趣的小伙伴可以回顾下:TensorRT-LLM 是一个开源库,用于定义、优化和执行大型语言模型 (LLM) 在生产环境的推理。它在开源 Python API 中保留了 FasterTransformer 的核心功能,并与 TensorRT 的深度学习编译器配合使用,以快速支持新模型和定制模型。原创 2023-12-23 11:10:50 · 1299 阅读 · 0 评论 -
【模型推理加速系列】07: 以BERT为例全面评测各种推理加速方案
本文尝试以NLP领域中的常用模型BERT为例(仅将输入文本进行encode),综合评测包括**Pytorch、ONNX、JIT、TensorRT和OpenVino**在内这5种推理方案的性能。原创 2022-12-22 23:16:27 · 1681 阅读 · 0 评论 -
【模型推理加速系列】06: 基于resnet18加速方案评测
今天这篇文章以resnet18模型为例,对比Pytorch、ONNX、TorchScript、TensorRT模型格式在不同硬件(包括CPU和GPU)上的inference性能原创 2022-11-27 20:45:59 · 1720 阅读 · 0 评论 -
【模型推理加速系列】05: 推理加速格式TorchScript简介及其应用
本文主要介绍TorchScript的基本概念及其在 C++ 中的使用原创 2022-11-22 22:30:21 · 1436 阅读 · 0 评论 -
【模型推理加速系列】04:BERT加速方案对比 TorchScript vs. ONNX
本文以 BERT-base 的为例,介绍2种常用的推理加速方案:ONNX 和 TorchScript,并实测对比这两种加速方案与原始Pytorch模型格式的inference性能原创 2022-11-05 23:36:22 · 1979 阅读 · 4 评论 -
Pytorch模型量化实践并以ResNet18模型量化为例(附代码)
简介Pytorch中的模型量化并以ResNet18为例进行代码实践。原创 2022-08-08 18:58:06 · 9415 阅读 · 7 评论 -
模型推理加速系列|如何用ONNX加速BERT特征抽取-part2(附代码)
背景本文紧接之前的一篇文章如何用ONNX加速BERT特征抽取,继续介绍如何用ONNX+ONNXRuntime来加速BERT模型推理。如果看过之前的那篇文章如何用ONNX加速BERT特征抽取的童鞋估计还记得文中留了一个疑问:为何优化过的ONNX模型与未优化的ONNX性能相近?说好的优化,说好地提速呢?与预期不符~经热心网友冠达提醒优化的ONNX模型运行时要开启OpenMP(如果没有安装,用apt-get install libgomp1安装OpenMP运行时库即可)。回来一试,果然如此,在此感谢热心网友!原创 2020-12-08 21:52:22 · 1537 阅读 · 1 评论 -
模型推理加速系列|如何用ONNX加速BERT特征抽取(附代码)
简介近期从事模型推理加速相关项目,所以抽空整理最近的学习经验。本次实验目的在于介绍如何使用ONNXRuntime加速BERT模型推理。实验中的任务是利用BERT抽取输入文本特征,至于BERT在下游任务(如文本分类、问答等)上如何加速推理,后续再介绍。PS:本次的实验模型是BERT-base中文版。环境准备由于ONNX是一种序列化格式,在使用过程中可以加载保存的graph并运行所需要的计算。在加载ONNX模型之后可以使用官方的onnxruntime进行推理。出于性能考虑,onnxruntime原创 2020-11-30 23:30:50 · 4993 阅读 · 6 评论 -
ACL2020论文阅读笔记-FastBERT: a Self-distilling BERT with Adaptive Inference Time
0. 背景题目:FastBERT: a Self-distilling BERT with Adaptive Inference Time机构:北大、腾讯、北师大作者:Weijie Liu, Peng Zhou, Zhe Zhao, Zhiruo Wang, Haotang Deng, Qi Ju论文地址:https://arxiv.org/abs/2004.02178收录会议:ACL2020代码:https://github.com/autoliuweijie/FastBERT摘要预训练原创 2020-07-25 14:08:57 · 956 阅读 · 0 评论