![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
cuda
农夫山泉2号
关于交流可以发邮件:778961303@qq.com
展开
-
【线上加速】——加速推理
加速来自于腾讯的直播采用cublas做矩阵乘法转载 2021-12-06 20:41:03 · 169 阅读 · 0 评论 -
【cuda】——性能分析工具
cuda来自于腾讯的直播。原创 2021-12-06 20:07:23 · 559 阅读 · 0 评论 -
【tensorrt】——int8量化过程浅析/对比
关键词:tensorrt, int8简介: int8推理需要在计算能力大于6.1的显卡上。INT8引擎从32位网络定义构建,类似于32位和16位引擎,但有更多的配置步骤。特别地,构建器和网络必须配置为使用INT8, INT8要求按张量动态范围。INT8校验器可以确定如何最好地将权值和激活表示为8位整数,并相应地设置每个张量的动态范围。或者,您可以自定义每个张量的动态范围;这在sampleINT8API中有涉及。1. 整体流程定义好模型网络设置好校准器(就是一些验证样本)设置好builder,.原创 2021-02-19 14:24:09 · 2534 阅读 · 1 评论 -
【docker-cuda】——base,runtime,devel的区别
转载自:https://github.com/NVIDIA/nvidia-docker/wiki/CUDADescriptionCUDA图像有三种风格,可以通过NVIDIA公共集线器存储库获得。基础:从CUDA 9.0开始,包含了部署预构建CUDA应用程序的最低限度(libcudart)。如果你想手动选择你想要安装的CUDA包,请使用这个映像。运行时:通过添加CUDA工具包中的所有共享库扩展基本映像。如果您有一个使用多个CUDA库的预构建应用程序,请使用此图像。devel:通过添.原创 2021-02-04 15:47:33 · 10761 阅读 · 1 评论 -
【tensorrt】——报错:发生异常: TypeError pybind11::init(): factory function returned nullptr
描述:采用tensorrt python api载入序列化的模型时,报错:发生异常: TypeErrorpybind11::init(): factory function returned nullptrcodewith open(self.model, 'rb') as f, trt.Runtime(self.trt_logger) as runtime: return runtime.deserialize_cuda_engine(f.read())原因在mai原创 2020-12-29 20:48:15 · 4823 阅读 · 12 评论 -
【C++】——报错:terminate called after throwing an instance of ‘std::bad_alloc‘ what(): std::bad_alloc
采用onnx-tensorrt项目,解析onnx的模型时,报错:terminate called after throwing an instance of ‘std::bad_alloc’what(): std::bad_alloc原因:插件的 serialize 函数写错了正确的写法void serialize(void* buffer) const override { serializeBase(buffer); serialize_value(&am原创 2020-12-29 19:19:11 · 2873 阅读 · 0 评论 -
【pycuda】——pycuda._driver.LogicError: explicit_context_dependent failed: invalid device context - no
转载自:https://blog.csdn.net/weixin_34910922/article/details/109906628报错:pycuda._driver.LogicError: explicit_context_dependent failed: invalid device context - no currently active context?原因:pycuda.driver没有初始化,导致无法得到context,需要在导入pycuda.driver后再导入pycuda..转载 2020-12-28 20:36:27 · 1761 阅读 · 0 评论 -
【tx2】——动态库编译注意事项
1. 在ubuntu上编译成库,然后把库so直接copy到tx2用于编译可能问题:ubuntu上编译的库在tx2上(arm平台上)能否直接使用?结果:/usr/bin/ld: skipping incompatible /home/ginger/chenjun/libs_make/lib/libmegengine.so when searching for -lmegengine/usr/bin/ld: cannot find -lmegenginecollect2: error: ld r原创 2020-11-17 19:26:51 · 417 阅读 · 0 评论 -
【onnx-tensorrt】——源码阅读记录
个人记录tensorrt自定义插件层getOutputDimensions的调用接口新定义的层需要定义getOutputDimensions方法,那这个是在供哪里调用的呢?接口的参数又是?nvinfer1::Dims ResizeBilinearPlugin::getOutputDimensions(int index, const nvinfer1::Dims *inputDim原创 2020-11-17 11:10:19 · 604 阅读 · 0 评论 -
【cuda】——threads_per_block设置注意事项
写了个cuda代码:const int threads_per_block = 80; dim3 blocks = dim3((w + threads_per_block - 1) / threads_per_block, (h + threads_per_block - 1) / threads_per_block);dim3 threads = dim3(threads_per_block, threads_per_block);int size = w * h;prob2rgb_原创 2020-11-12 17:58:39 · 1752 阅读 · 0 评论 -
【cuda】——npp/cuda图像预处理resize+norm对比
1. npp核心代码:// 2. npp 图像预处理bool keepRation = 0 ,keepCenter= 0;int width_in = img.cols; int height_in = img.rows;NppiSize srcSize = {width_in, height_in};NppiRect srcROI = {0, 0, width_in, height_in};int dst_width = inputDim.d[2];int dst_height = in原创 2020-11-10 18:03:48 · 2215 阅读 · 7 评论 -
【nvidia npp】——图像resize
1. 简介NVIDIA Performance Primitives library (NPP)是一系列为加速进程的库函数,NPP的原始目标是针对图像和视频进程,而现在以被开发工程师应用于其它很多领域,包括信号处理。与同级别的纯CPU 函数相比,这些函数最高可实现5 - 10倍性能提升。利用NPP,开发者能够利用 (CUDA4.1中)2000多个图像处理与信号处理基元,在数小时之内即可实现应用程序的大幅性能提升。无论用GPU加速的版本代替CPU基元还是将NPP基元与现有的GPU加速流水线相结合,NPP都原创 2020-11-10 16:17:07 · 1452 阅读 · 0 评论 -
【cuda】——cuda,opencv混合编程
思路来自:https://www.cnblogs.com/dwdxdy/p/3528711.html但是其cuda源码是有问题的,没有cmakelists.txt背景采用cuda gpu交换opencv图像的 r, b通道0. 代码main.cpp#include <stdlib.h>#include <stdio.h>#include <opencv/cv.h>#include <opencv/highgui.h>#include <原创 2020-11-10 15:02:11 · 616 阅读 · 3 评论 -
【cuda】——cmake向量加法小例子
在大量的C/C++的项目中都使用CMake来进行项目的管理,而CUDA又是很流行的并行计算库,利用CMake来构建CUDA项目就显得很有必要了,而且项目中使用的CMakeLists.txt基本框架一致的。这里写了一个简单的向量加法来测试。下载地址:csdn没有积分的,留下邮箱,后续发送...原创 2020-11-10 11:51:48 · 332 阅读 · 0 评论 -
【OpenCV & CUDA】——OpenCV和Cuda结合编程
转载自:https://www.cnblogs.com/dwdxdy/p/3528711.html转载 2020-11-10 10:38:08 · 468 阅读 · 0 评论 -
【nvidia】——npp
简介NVIDIA NPP有用的例子原创 2020-11-09 17:19:59 · 603 阅读 · 0 评论 -
【tensorrt】——相关库的说明
Tensorrt这是github上tensorrt的一个项目库。其介绍为:这个存储库包含了NVIDIA TensorRT的开源软件(OSS)组件。包括TensorRT插件和解析器(Caffe和ONNX)的源代码,以及演示TensorRT平台的用法和功能的样例应用程序。这些开放源码软件组件是TensorRT通用可用性(GA)发行版的一个子集,带有一些扩展和错误修复。简单来说,该仓库就是tensorrt GA的子集+拓展+例子,不能脱离 tensorrt GAtensorrt GA这才是tenso..原创 2020-11-06 16:54:30 · 640 阅读 · 0 评论 -
【cuda】——显卡计算能力查询
有时候在编译cuda的源码的时候,需要指定显卡的计算能力,可以去链接查询原创 2020-11-06 16:33:19 · 2307 阅读 · 0 评论 -
【tensorrt】——全局静态变量释放cudastream时,报driver shutting down问题?
声明一个全局类,在类的析构函数中会释放显存。yolodet::yoloNet net;int main(int argc, char* argv[]){ std::string engine = "model/yolov4.engine"; net.loadmodel(engine); return 0;}报错:CUDA error driver shutting down at /home/data/CM/3_image_classification/pytorch_原创 2020-10-20 18:04:40 · 3385 阅读 · 0 评论 -
ubuntu16.04卸载cuda
根据官方的文档说明,根据安装的方式不同,有两种方式卸载。用runfile安装cuda的Use the following command to uninstall a Toolkit runfile installation:$ sudo /usr/local/cuda-X.Y/bin/uninstall_cuda_X.Y.pl用离线文件deb安装的cudaUse the fol...原创 2019-09-14 12:14:51 · 417 阅读 · 0 评论 -
RROI Aglin cuda源码阅读
文章目录原理cuda程序——前向传播cuda程序——反向传播总结原理RROI Aglin就是在roi aglin的基础上加上了旋转操作。但是整个过程的原理理解还是很难的,因为涉及到图像旋转。所以强烈推荐下面这篇文章:图像旋转算法原理-- 旋转矩阵,其中rroi aglin的前向传播过程主要参考了。即通过给定aglin后的坐标点(X,Y)映射回原图的(X0,Y0),这里的(X0,Y0)是浮点数,...原创 2019-06-09 17:46:52 · 1417 阅读 · 2 评论 -
ROI Align原理及cuda源码阅读
文章目录原理pytorch cuda源码阅读(前向)原理具体可参考:详解 ROI Align 的基本原理和实现细节。这篇文章为整体的原理理解,并不涉及算法的具体实现。简单看。双线性插值算法的详细总结。这篇文章涉及到算法的细节。就x,y点值的计算需要理解。重点理解以下公式:pytorch cuda源码阅读(前向)整理流程:求出pw,ph,c,n,为了后面从bottom_da...原创 2019-06-09 10:37:36 · 1666 阅读 · 0 评论 -
python深度学习GPU加速方案
引言深度学习到现在为止没有GPU是万万不行,前面用numpy实现了一个roi pooliing的自定义层,只能说能用,但是速度太慢,所以还没有等网络开始收敛,我自己就受不了了。所以GPU加速是最好是要掌握的,最起码要了解的。gpu加速可选方式cudanvidia官方推出的,现在的所有的深度学习框架都是用的cudnn(做DNN的cuda),所以掌握这个是最好的。以下就是一些python结...原创 2019-06-01 16:13:08 · 2222 阅读 · 0 评论 -
CUDA系列(一)——矢量求和
文章目录代码疑问代码疑问向量的数量N未转换到GPU上,而是在主机端进行全局定义的,那在设备端进行if (index < N)的判断,为何能访问主机端的变量...翻译 2019-05-26 22:10:59 · 935 阅读 · 0 评论