基于nsight_compute进行kernel性能分析

最新推荐文章于 2024-11-26 08:31:29 发布

Undefined游侠

最新推荐文章于 2024-11-26 08:31:29 发布

阅读量1.2k

点赞数 24

文章标签： linux 运维服务器

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_19859865/article/details/139893939

版权

当利用nsight进行性能分析时，当涉及到内核级别的性能分析时，nvidia提供了系统级别(nsight system)，和内核级别的性能分析工具（nsight compute）。

其中，内核级别的性能分析，可以检查kernel实现的性能好坏及bottleneck。

本次分析参考的kernel实现代码为：

https://github.com/siboehm/SGEMM_CUDA

本次主要对比的是cublas和基于naive cuda实现的kernel性能对比：
cublas的实现可以理解为最优解，而naive cuda的kernel没有进行，global memory。共享内存或者寄存器相关的优化。

参考下列执行执行nsight compute的分析。。。

step 1: enble the usage of ncu

based on the first reference

step 2; generate report
```
ncu -o profile_matrix --set full ./a.out

```

step 3: use nsight compute to watch report

Reference:

[1] https://developer.nvidia.com/nvidia-development-tools-solutions-err_nvgpuctrperm-permission-issue-performance-counters<

最低0.47元/天解锁文章

Undefined游侠

博客等级

码龄11年

91
原创

527
点赞

530
收藏

394
粉丝

关注

私信

热门文章

分类专栏

最新评论

Resnet20代码review
Sarah_Wang2: 您好，想请问下代码中的_make_layer是怎样的呀，谢谢
数据结构与算法2 哈希表
CSDN-Ada助手: 算法技能树或许可以帮到你：https://edu.csdn.net/skill/algorithm?utm_source=AI_act_algorithm
EfficientAI Lab：大模型AWQ量化
weixin_46656063: 为什么做这个Scale操作呢？其实是为了减少量化损失，对于普通的权重量化，损失一般在于Round操作的舍入误差，一般浮点数的舍入值在0~0.5，平均误差就是0.25。而先scale再量化的公式如下，一般来说在对应的salient weight row乘上因子s并不会影响weight的极值，那么，而Round误差一般也是不变的，那么下式的Err相比于原先的Err会多出一个1/s，那么量化误差就变低。
Swin-Transformer论文阅读
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
VIT论文阅读： A Image is Worth 16x16 Words
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。