CUDA性能优化技巧

space01

已于 2023-02-16 10:22:55 修改

阅读量1.1k

点赞数 1

分类专栏： Jetson 文章标签：边缘计算

于 2022-05-14 21:08:29 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/space01/article/details/124774158

版权

Jetson 专栏收录该内容

16 篇文章 2 订阅

订阅专栏

1. 使用shared memory

如果在kernel函数中，需要对global memory同一个数据多次访问，最好使用shared memory，先将数据从globalmemory拷贝到shared memory中，

然后使用shared memory中数据进行读取。

如果仅读取一次，则使用shared memory效果不大。

2. 使用限定符__restrict__提高性能

对于read-only的指针，可以使用const * __restrict__进行限定，提高性能，如下面的kernel函数。

使用__restrict__告诉nvcc此指针不会重叠，放心使用。并且此限定符仅对指针有效，注意不能是__restrict__ * ptr。

__global__ void myKernel( const short * __restrict__ src , short* __restrict__ dst ){

dst[ threadIdx.x ] = src[ threadIdx.x ] + 42;

}

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
CUDA性能优化技巧

1.使用shared memory如果在kernel函数中，需要对global memory同一个数据多次访问，最好使用shared memory，先将数据从globalmemory拷贝到shared memory中，然后使用shared memory中数据进行读取。如果仅读取一次，则使用shared memory效果不大。2.使用限定符__restrict__提高性能对于read-only的指针，可以使用const * __restrict__进行限定，提高性能，如下面的ker..
复制链接

扫一扫

专栏目录

space01 CSDN认证博客专家 CSDN认证企业博客

码龄16年

36: 原创

13万+: 周排名

8万+: 总排名

3万+: 访问

: 等级

407: 积分

105: 粉丝

37: 获赞

12: 评论

59: 收藏

私信

关注

热门文章

分类专栏

AIoT 付费 16篇
github 1篇
python 1篇
rockchip 1篇
ModelArts 2篇
Jetson 16篇
Linux 1篇
网络 2篇
Windows 2篇
C++ 6篇

最新评论

RV1808/1126使用RKNN作为MediaPipe推理后端开发步骤及ONNX转RKNN模型
Klein-: 请问博主用mediapipe的模型转rknn了吗？
解决pycharm报Cannot find remote credentials for target config com.jetbrains.plugins.remotesdk.target的方法
田超394842: PyCharm远程Run或调试报错Cannot find remote credentials for target config com.jetbrains.plugins.remotesdk.target.webDeployment.WebDeploymentTargetEnvironmentConfiguration@2bf564e7 依照网上常规步骤仍不行则需继续如下配置:文件>设置>项目:Python>Python解释器>[增加解释器],注意不能用旧的>On SSH>1/4选[已存在的]>3/3虚环境:存在的;解释器=/usr/local/bin/python311;同步目录:项目根→/home/python>[创建]>看到包列表至少有pip等几条即成功.
Triton服务器部署Yolov5s模型应用
space01: 这个是针对Yolov5的部署，triton会自动加载模型。
Triton服务器部署Yolov5s模型应用
m0_37953053: 博主，这个过程是不是有省略啊？哪里来加载自己的模型的啊
RV1808/1126使用RKNN作为MediaPipe推理后端开发步骤及ONNX转RKNN模型
space01: 这个的难点主要在mediapipe的使用，其他关于rknn的使用主要参考官方的demo。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

space01 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。