nsight system
nsys profile --stats=true -o txt2image --force-overwrite=true --trace=cuda,cudnn,cublas,osrt,nvtx,opengl python3 demo_txt2img.py "a beautiful photograph of Mt. Fuji during cherry blossom" --version 2.0-base >txt2image.log
# 其中
-t 后面跟定的参数是我们要追踪的API,即需要CUDA API,OS runtime API以及NVTX API
-o 给定的是输出的文件名称
-w 后面表明是或否要在命令行中同时输出结果python main.py为程序的执行命令
# 生成3个文件
-rw-rw-r-- 1 root root 25232169 Sep 7 03:12 txt2image.nsys-rep
-rw-rw-r-- 1 root root 2550258 Sep 4 02:27 txt2image.qdstrm
-rw-r--r-- 1 root root 76693504 Sep 7 03:13 txt2image.sqlite
nvtx 使用
Nsight Compute
basic operation
- replay mode
- section
Metrics
Key feature
- LSU 代表load/store,占比过高说明流水线设计有问题,需要减少
schedule analysis
Memory Analysis
参考资料
- https://cloud.baidu.com/doc/GPU/s/el8mizux4
- 用户手册:
- https://zhuanlan.zhihu.com/p/279424529
- https://zhuanlan.zhihu.com/p/279471116
- https://zhuanlan.zhihu.com/p/279492185
- https://zhuanlan.zhihu.com/p/463844048
- https://zhuanlan.zhihu.com/p/577412348