学习
文章平均质量分 75
Hi20240217
每天进步一点点
展开
-
GPU优化方法总结
GPU优化方法总结原创 2024-08-28 15:25:52 · 1437 阅读 · 0 评论 -
NVIDIA GPU 性能分析—GPU内部结构及任务调度过程
NVIDIA GPU 性能分析—GPU内部结构及任务调度过程。原创 2024-08-23 19:00:55 · 436 阅读 · 0 评论 -
CUDA_Occupancy_Calculator计算公式
CUDA_Occupancy_Calculator计算公式。原创 2024-07-30 20:12:21 · 147 阅读 · 0 评论 -
Excel模拟计算演示-以矩阵乘计算密度为例
安装好CUDA之后,/usr/local/cuda-12.1/tools/CUDA_Occupancy_Calculator.xls里会看到"=TABLE(,B17)"这样的表达式,原来是模拟计算的结果。原创 2024-07-25 13:56:47 · 437 阅读 · 0 评论 -
NsightComputeProfiling入门
本文是NsightCompute的一个演示。原创 2024-07-22 20:20:47 · 894 阅读 · 0 评论 -
查看NVIDIA GPU设备节点映射关系
【代码】查看NVIDIA GPU设备节点映射关系。原创 2024-07-18 13:45:08 · 1116 阅读 · 0 评论 -
Volta独立线程调度
从Volta开始支持独立线程调度(Independent Thread Scheduling)原创 2024-07-17 09:16:10 · 416 阅读 · 0 评论 -
NVIDIA_Nsight_Compute_Metrics解释(非query-metrics部分)
NVIDIA_Nsight_Compute_Metrics解释(非query-metrics部分)原创 2024-07-12 19:51:58 · 2061 阅读 · 0 评论 -
CUDA Kernel Profiling Guide LLM翻译
CUDA Kernel Profiling Guide LLM翻译原创 2024-07-10 22:25:28 · 826 阅读 · 0 评论 -
CUDA Kernel调试与优化--背景知识扫盲(LLM生成)
CUDA Kernel调试与优化--背景知识扫盲(LLM生成)原创 2024-07-09 20:59:50 · 1456 阅读 · 0 评论 -
LLM生成的CUDA CUPTI Metrics for Capability 7.0解释
LLM生成的CUDA CUPTI Metrics for Capability 7.0解释原创 2024-07-09 20:54:42 · 901 阅读 · 0 评论 -
未来几年,同样的性能,推理功耗降低为现在的几万分之一,有可能吗
有人说未来几年,推理功耗能降低为现在的几万分之一,好奇怎么能做到呢。原创 2024-06-10 12:53:18 · 202 阅读 · 0 评论 -
Ascend训练软件栈了解
功能介绍:昇腾旗下的开源 AI 模型平台,涵盖计算机视觉、自然语言处理、语音、推荐、多模态、大语言模型等多个方向的 AI 模型及其基于昇腾机器实操案例。功能介绍:昇腾的 AI 模型平台,提供开源的 AI 模型和基于昇腾的实操案例,涵盖计算机视觉、自然语言处理、语音、推荐、多模态、大语言模型等领域。功能介绍:昇腾的大模型加速库,提供模型并行、流水线并行、序列并行、重计算、分布式优化器等多种加速算法,并支持昇腾专有算法,确保开箱可用。原创 2024-06-06 18:55:41 · 1281 阅读 · 0 评论