GPU编程&模型加速
文章平均质量分 70
主要介绍GPU CUDA编程,Tensor RT加速、量化,CVCUDA 等主流加速库使用,实时更新。
优惠券已抵扣
余额抵扣
还需支付
¥99.90
¥299.90
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
TigerZ*
计算机视觉相关。接付费咨询开发。
算法:AIGC、分类、检测、特征、长尾、开集、聚类、传统图像算法。
语言:Python、C & C++。
工具:pytorch、TRT、CUDA、Triton、DeepStream、DALI。
展开
-
模型量化——NVIDIA——方案选择(PTQ、 partialPTQ、 QAT)
本文主要介绍NVIDIA 模型量化方案的选型思路(主要有三种:PTQ、 partialPTQ、 QAT)。并且对其中涉及的知识点进行了提炼总结。原创 2024-04-09 19:51:03 · 298 阅读 · 1 评论 -
TRT8系列—— 版本差异注意事项
TRT8 一个大版本,8.4-、 8.5、 8.6(包含预览功能)却有很多变动,主要涉及输入输出的绑定binding接口、dynamic shape性能调优、dynamic shape 和context的绑定。原创 2023-08-17 17:21:30 · 1351 阅读 · 1 评论 -
TRT8系列—— pytorch 模型转 onnx
详细介绍 Torch 模型如何导出 onnx ,并且提供完整的代码支持如下几个特性:动态batch、单输入、多(两)输出 。同时罗列其中的注意事项。这是后续TRT等加速的基础步骤。原创 2022-10-12 17:06:04 · 1144 阅读 · 0 评论 -
TensorRT 5 初步认识
原创 2021-10-28 16:35:53 · 267 阅读 · 0 评论 -
tensorRT5.15 使用中的注意点
1、鉴黄加速效果:压测及线上情况2、安装,建议使用tar的形式,避免遇到一些依赖库找不到的问题。3、Python图片预处理多进程不及多线程。多进程CPU占用低,主要是预处理的时间过少,Python 进程分发任务开销对于我们的ms级应用不可忽视。对比为batch=8,进程、线程为8,时间均为8张时间,循环1000次测试。多线程,平均为8.5ms(每千次次变动7.5-9.5S,近乎100%占用);多进程,平均为19ms(15-21ms);...原创 2021-10-28 16:24:24 · 856 阅读 · 0 评论 -
tensorRT教程——tensor RT OP理解(实现自定义层,搭建网络)
首先如果你的自定义操作可以通过一些矩阵操作来实现,那么你大可不必自己去通过plug in的方式实现,可以使用tensor RT 的OP来组合实现。 他的OP极其类似tensor flow的操作,如果看到不理解,那就去谷歌tensor flow的操作,触类旁通即可,但仍有一些文档描述错误。 一些我使用过典型的OP备注如下,并附上一个测试OP的脚本,按需修改即可:1、reduce层的理解: reduce主要是在各个轴上进行对应的操作。 axes...原创 2021-08-03 20:25:14 · 2577 阅读 · 7 评论 -
tensorRT教程——使用tensorRT OP 搭建自己的网络
如下提供一个可以运行的使用tensorRT的OP来搭建自己定义的层或者直接重写自己网络,使用OP的场景: 1、自己的网络无法通过paser来直接转换为TRT的网络。如果自己写cuda实现,那么量化的操作也得自己实现,这样难度其实很高,建议还是使用TRT的OP搭建,搭建完支持量化等操作。 2、学习测试TRT的OP。 关于OP的一些我遇到的疑惑解读见我的另一篇博客:https://blog.csdn.net/u012863603/articl...原创 2021-08-03 20:31:16 · 1256 阅读 · 0 评论