![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
cupy
农夫山泉2号
关于交流可以发邮件:778961303@qq.com
展开
-
【cuda】——CUDA中SM对线程块的调度
转载自:https://blog.csdn.net/weixin_43282858/article/details/96138469转载 2021-03-18 11:16:14 · 916 阅读 · 0 评论 -
【pycuda】——pycuda._driver.LogicError: explicit_context_dependent failed: invalid device context - no
转载自:https://blog.csdn.net/weixin_34910922/article/details/109906628报错:pycuda._driver.LogicError: explicit_context_dependent failed: invalid device context - no currently active context?原因:pycuda.driver没有初始化,导致无法得到context,需要在导入pycuda.driver后再导入pycuda..转载 2020-12-28 20:36:27 · 1761 阅读 · 0 评论 -
【tensorrt】——双线性上采样插件(提供源码)
简介:如果用nvidia的gpu,在推理的时候,采用tensorrt进行加速是一个很好的选择,虽然tensorrt没有开源。我一般选择的模型训练到部署的流程是:pytorch训练模型onnx模型导出onnx模型转ncnn,mnn,tensorrt等模型嵌入式推理框架,推理脚本书写。这里用tensorrt做语义分割网络pspnet的推理加速。技术路线采用:pytorch——onnx——tensorrt。1. pytorch——onnxpytorch是内嵌了onnx模型导出的。这里py..原创 2020-11-17 20:49:17 · 1825 阅读 · 7 评论 -
cupy系列(一)——自定义elementwise核函数
文章目录定义elementwise核函数Type-generic 核函数手动索引定义elementwise核函数Type-generic 核函数>>> squared_diff_generic = cp.ElementwiseKernel(... 'T x, T y',... 'T z',... 'z = (x - y) * (x - y)',...原创 2019-06-06 11:27:14 · 3551 阅读 · 1 评论 -
cupy系列(二)——实现roi_pooling
从chainer中copy出来的。官方有CPU和GPU的分别实现尊重原创,请看源码 chainer_roipooling例子import cupy as cpimport numpy as npbottom_data = cp.random.randn(1,3,40,40, dtype=np.float32) # 特征feature batch, channels, height...原创 2019-06-06 12:49:06 · 1116 阅读 · 0 评论