- 博客(221)
- 收藏
- 关注
原创 验证4个SMSP是否是串行访问ShareMemory的
原以为4个smsp中的warp在没有bank冲突的情况下,是可以并行访问共享内存的通过下面的测试发现,其实是串行的,share memory每个cycle只能处理一个请求。
2024-08-27 18:31:59
1024
原创 统计一条cuda ld指令需要经过哪些硬件单元--演示CuAssembler如何修改CUDA SASS指令
统计一条cuda ld指令需要经过哪些硬件单元--演示CuAssembler如何修改CUDA SASS指令
2024-08-12 17:40:36
545
原创 使用二条PTX MMA m16n8k16指令实现一个16x16x16的GEMM,并跟wmma对比差异
本文演示,如何使用二条PTX MMA m16n8k16指令实现一个16x16x16的GEMM,并跟wmma对比差异
2024-08-09 22:19:50
637
原创 cublasGemmEx测试及Profing
本文演示了cublasGemmEx API的使用、GEMM理论算力的计算、NCU获取GPU的峰值算力及实测算力。
2024-08-09 17:00:14
344
原创 mma.sync.aligned.m16n8k16.row.col.f16.f16.f16.f16测试
本文演示了如何按PTX指令文档中的layout格式要求,加载数据,执行mma指令,并且跟numpy对比结果的一致性
2024-08-09 16:28:59
1406
原创 Nsight-Compute Global Load相关Metric测试
本文使用ptx指令直接从global memory获取数据,了解相关metrics及其计算过程。
2024-08-01 16:40:44
715
原创 Excel模拟计算演示-以矩阵乘计算密度为例
安装好CUDA之后,/usr/local/cuda-12.1/tools/CUDA_Occupancy_Calculator.xls里会看到"=TABLE(,B17)"这样的表达式,原来是模拟计算的结果。
2024-07-25 13:56:47
452
原创 pytorch通过change_current_allocator获取所有的子Module实际的内存占用情况
目的:需要准确统计pytorch每一层计算所需的设备内存问题:对齐的原因,直接使用torch.cuda.memory_allocated()并不准确方法:设置CUBLAS_WORKSPACE_CONFIG,排除CUBLAS_WORKSPACE的影响使用torch.cuda.memory.change_current_allocator设置自己的内存分配器在自己的内存分配器里记录内存分配情况。
2024-07-19 20:39:43
499
原创 从NVIDIA Nsight Compute内置的Sections中提取出所有的Metric及名称
从NVIDIA Nsight Compute内置的Sections中提取出所有的Metric及名称
2024-07-12 20:12:43
240
原创 将具有多个sheet的excel表格中所有sheet某一列翻译成中文,且保留原始样式
将具有多个sheet的excel表格中所有sheet某一列翻译成中文,且保留原始样式
2024-07-12 20:05:10
560
原创 NVIDIA_Nsight_Compute_Metrics解释(非query-metrics部分)
NVIDIA_Nsight_Compute_Metrics解释(非query-metrics部分)
2024-07-12 19:51:58
2305
原创 LLM生成的CUDA CUPTI Metrics for Capability 7.0解释
LLM生成的CUDA CUPTI Metrics for Capability 7.0解释
2024-07-09 20:54:42
935
原创 LLM生成nvidia-h100-tensor-core-hopper-whitepaper.pdf摘要
LLM生成nvidia-h100-tensor-core-hopper-whitepaper.pdf摘要。
2024-07-08 22:27:35
349
原创 NVIDIA H100 Tensor Core GPU摘要
架构设计H100 GPU 提供了多种配置,包括 GH100 全尺寸版本、SXM5板型以及PCIe板型。全尺寸GH100包含8个GPCs、72个TPCs和144个SMs,而SXM5和PCIe板型分别拥有132和114个SMs。每个SM配备128个FP32 CUDA核心,全尺寸GH100总计有18432个,SXM5和PCIe版则分别为16896和14592个。张量核心第四代张量核心,每个SM包含4个,全尺寸GH100总计576个,SXM5和PCIe版分别有528和456个。
2024-07-08 22:25:21
1213
原创 LLM生成的CUDA C++ Programming Guide 摘要
GPU的优势:与CPU相比,GPU在相同价格和功耗范围内提供更高的指令吞吐量和内存带宽。这使得许多应用在GPU上运行速度更快,特别是在高度并行计算场景下。GPU与CPU设计差异:CPU设计用于快速执行单一线程操作,并行处理少数线程;而GPU设计用于同时高效执行数千个线程,通过大量并行计算来抵消单线程性能较慢的问题,从而实现更高的吞吐量。CUDA介绍。
2024-07-08 22:21:10
1134
原创 用大模型提取《cuda-c-programming-guide》的摘要并输出中文
想快速知道CUDA C++ Programming Guide中的内容。打开网页,保存成mhtml内容,用以下脚本提取内容,调用qwen大模型生成摘要。当然,还可以对摘要再提一次摘要。
2024-07-06 20:31:05
397
原创 通过装饰器将有BUG的pytorch算子放置在CPU上,而不用修改模型代码
某些pytorch算子发下到设备后会导致设备异常,为了暂时规避,先放在CPU上执行修改模型源码很不友好,可以采用以下方法。
2024-07-05 21:03:02
251
原创 Excel为数据绘制拆线图,并将均值线叠加在图上,以及整个过程的区域录屏python脚本
Excel中有一组数据,希望画出曲线,并且能把均值线也绘制在图上,以下动画演示了整个过程,并且提供了区域录屏脚本,原理如下:为节约空间,避免剪辑,只记录有效区域【仅记录鼠标区域且图像变化的图片】
2024-07-04 22:02:51
473
原创 ui.perfetto.dev sql 查询某个事件范围内,某个事件的耗时并降序排列
ui.perfetto.dev sql 查询某个事件范围内,某个事件的耗时并降序排列
2024-07-03 20:00:24
512
NVIDIA-GPU-白皮书(G80到hopper)
2024-07-20
linux基于LD-PRELOAD机器的内存泄露检测工具
2024-05-17
ffmpeg 异步推理filter源码
2024-03-21
grpc v1.62.0
2024-03-19
C#实现的键盘记录后台程序,可运行在win10/win11系统.能记录各种键盘按键,并将字符保存到文件中
2024-02-20
Aleo网络的一些疑问
2024-09-14
怎么能把CSDN上的博文自动生成短视频呢
2024-02-25
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅
5