自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(221)
  • 收藏
  • 关注

原创 NV GPU FMA指令测试

本文测试了NV GPU FMA指令的行为。

2024-08-27 18:42:52 1286

原创 验证4个SMSP是否是串行访问ShareMemory的

原以为4个smsp中的warp在没有bank冲突的情况下,是可以并行访问共享内存的通过下面的测试发现,其实是串行的,share memory每个cycle只能处理一个请求。

2024-08-27 18:31:59 1024

原创 测试cuda-gdb调试某个线程,是否会影响其它线程

测试cuda-gdb调试某个线程,是否会影响其它线程。

2024-08-23 19:07:29 444

原创 测试cuda trap指令在cuda-gdb下的行为

本文测试cuda trap指令在cuda-gdb下的行为)

2024-08-23 19:06:23 334

原创 测试cuda trap指令对warp的影响

本文测试cuda trap指令对warp的影响。

2024-08-23 19:05:09 431

原创 测试NV GPU SM的时钟是否一致

测试NV GPU SM的时钟是否一致。

2024-08-23 19:03:57 366

原创 NVIDIA GPU 性能分析—GPU内部结构及任务调度过程

NVIDIA GPU 性能分析—GPU内部结构及任务调度过程。

2024-08-23 19:00:55 488

原创 统计一条cuda ld指令需要经过哪些硬件单元--演示CuAssembler如何修改CUDA SASS指令

统计一条cuda ld指令需要经过哪些硬件单元--演示CuAssembler如何修改CUDA SASS指令

2024-08-12 17:40:36 545

原创 NCU获取GPU各单元的峰值性能

本文演示了,NCU如何获取GPU各单元的峰值性能。

2024-08-10 17:06:47 1088 5

原创 获取淘票票上某个电影在全国各影院的票价

【代码】获取淘票票上某个电影在全国各影院的票价。

2024-08-10 15:47:15 520

原创 使用二条PTX MMA m16n8k16指令实现一个16x16x16的GEMM,并跟wmma对比差异

本文演示,如何使用二条PTX MMA m16n8k16指令实现一个16x16x16的GEMM,并跟wmma对比差异

2024-08-09 22:19:50 637

原创 WMMA API DEMO

本文演示了WMMA API的使用。

2024-08-09 17:18:52 350

原创 cublasGemmEx测试及Profing

本文演示了cublasGemmEx API的使用、GEMM理论算力的计算、NCU获取GPU的峰值算力及实测算力。

2024-08-09 17:00:14 344

原创 cutlass gemm测试及Profing

本文演示了cutlass gemm,并通过NCU获取FLOPS

2024-08-09 16:42:15 232

原创 mma.sync.aligned.m16n8k16.row.col.f16.f16.f16.f16测试

本文演示了如何按PTX指令文档中的layout格式要求,加载数据,执行mma指令,并且跟numpy对比结果的一致性

2024-08-09 16:28:59 1406

原创 Nsight-Compute Global Load相关Metric测试

本文使用ptx指令直接从global memory获取数据,了解相关metrics及其计算过程。

2024-08-01 16:40:44 715

原创 测试将Nvidia FMA打满

本文演示了如何将Nvidia FMA打满。

2024-08-01 09:37:12 337

原创 运行pytorch自带的单元测试

运行pytorch自带的单元测试。

2024-07-31 21:36:11 437

原创 MOELayer DEMO及注释

MOELayer DEMO及注释。

2024-07-30 20:15:44 512

原创 CUDA_Occupancy_Calculator计算公式

CUDA_Occupancy_Calculator计算公式。

2024-07-30 20:12:21 159

原创 Excel模拟计算演示-以矩阵乘计算密度为例

安装好CUDA之后,/usr/local/cuda-12.1/tools/CUDA_Occupancy_Calculator.xls里会看到"=TABLE(,B17)"这样的表达式,原来是模拟计算的结果。

2024-07-25 13:56:47 452

原创 NsightComputeProfiling入门

本文是NsightCompute的一个演示。

2024-07-22 20:20:47 960

原创 pytorch通过change_current_allocator获取所有的子Module实际的内存占用情况

目的:需要准确统计pytorch每一层计算所需的设备内存问题:对齐的原因,直接使用torch.cuda.memory_allocated()并不准确方法:设置CUBLAS_WORKSPACE_CONFIG,排除CUBLAS_WORKSPACE的影响使用torch.cuda.memory.change_current_allocator设置自己的内存分配器在自己的内存分配器里记录内存分配情况。

2024-07-19 20:39:43 499

原创 查看NVIDIA GPU设备节点映射关系

【代码】查看NVIDIA GPU设备节点映射关系。

2024-07-18 13:45:08 1196

原创 Volta独立线程调度

从Volta开始支持独立线程调度(Independent Thread Scheduling)

2024-07-17 09:16:10 444

原创 从NVIDIA Nsight Compute内置的Sections中提取出所有的Metric及名称

从NVIDIA Nsight Compute内置的Sections中提取出所有的Metric及名称

2024-07-12 20:12:43 240

原创 将具有多个sheet的excel表格中所有sheet某一列翻译成中文,且保留原始样式

将具有多个sheet的excel表格中所有sheet某一列翻译成中文,且保留原始样式

2024-07-12 20:05:10 560

原创 NVIDIA_Nsight_Compute_Metrics解释(非query-metrics部分)

NVIDIA_Nsight_Compute_Metrics解释(非query-metrics部分)

2024-07-12 19:51:58 2305

原创 CUDA Kernel Profiling Guide LLM翻译

CUDA Kernel Profiling Guide LLM翻译

2024-07-10 22:25:28 848

原创 CUDA Kernel调试与优化--背景知识扫盲(LLM生成)

CUDA Kernel调试与优化--背景知识扫盲(LLM生成)

2024-07-09 20:59:50 1524

原创 LLM生成的CUDA CUPTI Metrics for Capability 7.0解释

LLM生成的CUDA CUPTI Metrics for Capability 7.0解释

2024-07-09 20:54:42 935

原创 LLM生成nvidia-h100-tensor-core-hopper-whitepaper.pdf摘要

LLM生成nvidia-h100-tensor-core-hopper-whitepaper.pdf摘要。

2024-07-08 22:27:35 349

原创 NVIDIA H100 Tensor Core GPU摘要

架构设计H100 GPU 提供了多种配置,包括 GH100 全尺寸版本、SXM5板型以及PCIe板型。全尺寸GH100包含8个GPCs、72个TPCs和144个SMs,而SXM5和PCIe板型分别拥有132和114个SMs。每个SM配备128个FP32 CUDA核心,全尺寸GH100总计有18432个,SXM5和PCIe版则分别为16896和14592个。张量核心第四代张量核心,每个SM包含4个,全尺寸GH100总计576个,SXM5和PCIe版分别有528和456个。

2024-07-08 22:25:21 1213

原创 LLM生成的CUDA C++ Programming Guide 摘要

GPU的优势:与CPU相比,GPU在相同价格和功耗范围内提供更高的指令吞吐量和内存带宽。这使得许多应用在GPU上运行速度更快,特别是在高度并行计算场景下。GPU与CPU设计差异:CPU设计用于快速执行单一线程操作,并行处理少数线程;而GPU设计用于同时高效执行数千个线程,通过大量并行计算来抵消单线程性能较慢的问题,从而实现更高的吞吐量。CUDA介绍。

2024-07-08 22:21:10 1134

原创 用大模型提取《cuda-c-programming-guide》的摘要并输出中文

想快速知道CUDA C++ Programming Guide中的内容。打开网页,保存成mhtml内容,用以下脚本提取内容,调用qwen大模型生成摘要。当然,还可以对摘要再提一次摘要。

2024-07-06 20:31:05 397

原创 pytorch LLM训练过程中的精度调试实践

本文记录了,在某加速卡上进行LLM训练,精度问题的定位过程

2024-07-06 18:59:21 542 1

原创 通过装饰器将有BUG的pytorch算子放置在CPU上,而不用修改模型代码

某些pytorch算子发下到设备后会导致设备异常,为了暂时规避,先放在CPU上执行修改模型源码很不友好,可以采用以下方法。

2024-07-05 21:03:02 251

原创 GPU相关的一些截图(备查,待整理)

这里记录一些与GPU相关的截图,方便查阅。

2024-07-04 22:14:01 255

原创 Excel为数据绘制拆线图,并将均值线叠加在图上,以及整个过程的区域录屏python脚本

Excel中有一组数据,希望画出曲线,并且能把均值线也绘制在图上,以下动画演示了整个过程,并且提供了区域录屏脚本,原理如下:为节约空间,避免剪辑,只记录有效区域【仅记录鼠标区域且图像变化的图片】

2024-07-04 22:02:51 473

原创 ui.perfetto.dev sql 查询某个事件范围内,某个事件的耗时并降序排列

ui.perfetto.dev sql 查询某个事件范围内,某个事件的耗时并降序排列

2024-07-03 20:00:24 512

NVIDIA-GPU-白皮书(G80到hopper)

2006-G80 第一时间预览.pdf 2008-tesla-GT200.pdf 2010-fermi_Compute_Architecture_Whitepaper.pdf 2010-fermi架构_白皮书_中文详细版.pdf 2012-kepler-GK110-GK210-Architecture-Whitepaper.pdf 2014-maxwell-GeForce-GTX-750-Ti-Whitepaper.pdf 2016-pascal-architecture-whitepaper.pdf 2017-volta-Architecture-Whitepaper-v1.1-CN.compressed.pdf 2017-volta-architecture-whitepaper.pdf 2018-turing-架构白皮书.pdf 2020-ampere-architecture-whitepaper.pdf 2022-100-tensor-core-hopper-whitepaper.pdf 2022-hopper-GH200 Grace.pdf adalovelace-ADA-

2024-07-20

linux基于LD-PRELOAD机器的内存泄露检测工具

Valgrind影响性能且某些程序会报错,同时我们希望跳过初始化阶段,在程序稳定运行之后再去检测内存是否会持续增涨,为了更高效的记录内存分配情况,采用b+树.该程序会拦截malloc,free,calloc,realloc,new,delete。记录10层的PC指针,方便解析脚本定位调用的代码位置

2024-05-17

ffmpeg 异步推理filter源码

本文旨在阐述如何通过FFmpeg开发一个创新的滤镜模块,该模块利用gRPC异步通信机制调用远程视频处理服务。这一设计实现了对ffmpeg滤镜功能的精简化整合,仅需通过配置ffmpeg命令行参数,即可实现不同算法间的灵活切换与串联。得益于此,原始ffmpeg无需进行任何内部修改,同时支持服务端采用任意编程语言进行开发,从而显著提升了整体的开发效率和部署便利性。 此方案尤其适用于帧率相对较低、推理性能瓶颈明显且对延迟要求不苛刻的应用场景。在面对复杂的推理流水线时,若单台服务器资源足以应对计算需求,则可借助MediaPipe构建高效处理管道;而当需要扩展至多台服务器以提升并行处理能力时,则推荐采用Seldon框架部署微服务架构,确保系统的可扩展性和弹性伸缩能力。

2024-03-21

基于gRPC实现的异步推理框架

该项目是基于gRPC实现的异步推理框架。服务端采用python实现,客户端封装了grpc,对外仅提供推理相关的三个c接口,可用于跨进程推理。

2024-03-19

grpc v1.62.0

git clone --recurse-submodules -b v1.62.0 --depth 1 --shallow-submodules https://github.com/grpc/grpc

2024-03-19

百度地图路书功能演示DEMO

百度地图路书功能演示DEMO

2024-03-17

自动生成C结构体到json的序列化、反序列化代码的方法

自动生成C结构体到json的序列化、反序列化代码的方法

2024-02-24

C#实现的键盘记录后台程序,可运行在win10/win11系统.能记录各种键盘按键,并将字符保存到文件中

本文在https://github.com/lambdacasserole/silence 的基础上进行了兼容性调试,可以记录键盘按下的各种字符,并保存到文件中 主要修改点: 1.删除不需要的功能 2.隐藏窗口且不在任务栏显示 3.通过taskkill /im 结束进程 使用方法 1.使能Caps Lock(大写状态) 2.运行KMon.exe,点击隐藏按钮 3.所有的键盘按键都会记录在KMon.log文件里 4.执行taskkill /im KMon.exe关闭后台监控程序

2024-02-20

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除