代码片段
文章平均质量分 64
Hi20240217
每天进步一点点
展开
-
oneAPI学习-使用oneAPI 实现矩阵乘法并分析性能瓶颈
oneAPI学习-使用oneAPI 实现矩阵乘法并分析性能瓶颈原创 2024-10-13 14:06:46 · 727 阅读 · 0 评论 -
rocm PeerAccess 测试
rocm PeerAccess 测试原创 2024-10-13 08:44:47 · 241 阅读 · 0 评论 -
探索NVIDIA GPU PeerAccess的访问范围如何突破PCIE Bar空间大小
探索NVIDIA GPU PeerAccess的访问范围如何突破PCIE Bar空间大小原创 2024-10-13 08:40:32 · 1230 阅读 · 0 评论 -
CUDA Graphs学习与实验
CUDA图(CUDA Graphs)为CUDA引入了一种全新的工作提交模型。它允许将一系列操作(如内核启动)以图的形式表示,并通过依赖关系将这些操作连接起来。这种图的定义过程与其执行过程是分开的,这意味着我们可以提前定义好一个图,然后多次重复执行它原创 2024-10-11 10:03:58 · 1302 阅读 · 0 评论 -
CUDA Context学习及实验
CUDA上下文(CUDA Context)是一个核心概念,负责在GPU设备上管理和维护CUDA程序执行所需的所有状态和资源。原创 2024-10-10 13:53:46 · 1012 阅读 · 0 评论 -
CUDA Green Contexts测试
CUDA Green Contexts 测试原创 2024-10-09 20:00:31 · 891 阅读 · 0 评论 -
测试NCU中srcnode_gpc、srcunit_l1、srcunit_tex之间的关系
测试NCU中srcnode_gpc、srcunit_l1、srcunit_tex之间的关系。原创 2024-10-09 15:30:31 · 484 阅读 · 0 评论 -
NVIDIA Nsight Compute Replay测试
本文测试NVIDIA Nsight Compute 收集同一个Kernel 不同metrics,需要执行replay的次数原创 2024-10-09 10:08:42 · 336 阅读 · 0 评论 -
CUDA Dynamic Parallelism测试
CUDA 动态并行(CUDA Dynamic Parallelism)是 NVIDIA 在其 CUDA 编程模型中引入的一个强大特性。它允许 GPU 上运行的内核(kernel)直接在设备端启动新的内核,而无需返回主机(CPU)进行控制。这一特性使得我们可以在 GPU 上实现更复杂、更动态的算法,提高程序的并行度和执行效率。原创 2024-09-30 18:36:12 · 649 阅读 · 0 评论 -
CUDA Cooperative Groups 例子
下文包含的测例:* 测试一:借助grid_group同步,将tid=0的数据复制给其它线程* 测试二:借助thread_block_tile同步,将每个thread block中的数据倒排* 测试三:tile内和* 测试四:tile内广播原创 2024-09-29 15:54:44 · 531 阅读 · 0 评论 -
CUDA cooperative_groups grid_group测试
CUDA Cooperative Groups是CUDA编程模型中引入的一组高级特性,提供了更灵活的线程组织和同步机制通过Cooperative Groups,开发者可以在不同层次上组织线程,并执行更高效的并行操作grid_group.sync 可用于整个grid同步。原创 2024-09-29 14:18:05 · 892 阅读 · 0 评论 -
CUDA C++ Best Practices Guide 概要
CUDA C++ Best Practices Guide 概要原创 2024-09-27 16:12:07 · 1099 阅读 · 0 评论 -
CUDA抢占模式测试
CUDA抢占模式测试* 默认为抢占模式,后台运行一个Kernel,将利用率打满* 运行一个Kernel,Profing smsp__warps_restored,发现有值* nvidia-smi -c 3设置为EXCLUSIVE模式,创建多个上下文时:CUDA-capable device(s) is/are busy or unavailable!原创 2024-09-26 15:13:52 · 302 阅读 · 0 评论 -
Tesla T4 P2P测试
Tesla T4 P2P测试通过物理ID找到逻辑IDNCU P2P相关的MetricsPCIE、DRAM相关的Metrics原创 2024-09-25 18:12:16 · 529 阅读 · 0 评论 -
Clang插件演示-直接调用AI模型定义的变量完成模型推理
1.用户在c++代码里定义一个AI模型的描述(文件路径,数据类型,输入、输出等)2.编译器识别该描述,编译模型为二进制,并且嵌入到elf文件中,对外暴露一个API3.用户直接调用该API,传入模型输入输出参数,完成模型推理原创 2024-09-20 19:12:25 · 1287 阅读 · 0 评论 -
Rocprofiler测试
Rocprofiler测试。原创 2024-09-20 19:10:27 · 743 阅读 · 0 评论 -
尝试用float32运算器实现二个大数的加法
本文尝试用float32运算器实现二个大数的加法。先试图训练一个conv的kernel来实现,不能收敛;最后用float32的向量操作来实现。原创 2024-09-19 17:44:10 · 196 阅读 · 0 评论 -
关于区块链的个人理解(不一定对)
关于区块链的个人理解(不一定对)原创 2024-09-14 19:02:26 · 248 阅读 · 0 评论 -
snarkVM Synthesis Puzzle prove 调试过程
本文记录了snarkVM Synthesis Puzzle prove 调试过程(zkSNARKs零知识证明)原创 2024-09-13 21:38:28 · 582 阅读 · 0 评论 -
分析zkwork_aleo_gpu_worker哪些部分用了GPU加速
分析zkwork_aleo_gpu_worker哪些部分用了GPU加速,涉及* cuda-gdb、gdb的使用* strip的程序gdb如何查看函数的参数* 如何dump一个进程的内存* gdb dump内存原创 2024-09-12 20:43:13 · 1269 阅读 · 0 评论 -
CUDA int128相乘是怎么实现的
CUDA int128相乘是怎么实现的。原创 2024-09-12 18:55:03 · 386 阅读 · 0 评论 -
GPU相关的一些截图
GPU相关的一些截图原创 2024-09-10 20:59:32 · 389 阅读 · 0 评论 -
CUDA L2Cache Profing
【代码】CUDA L2Cache Profing。原创 2024-09-10 20:30:46 · 454 阅读 · 0 评论 -
cudaMallocManaged内存测试
cudaMallocManaged内存测试。原创 2024-09-10 08:07:39 · 256 阅读 · 0 评论 -
smsp__inst_executed_pipe_fp64为什么对不上
smsp__inst_executed_pipe_fp64 为什么对不上。原创 2024-09-09 19:28:05 · 580 阅读 · 0 评论 -
RTX3060 FP64测试与猜想
RTX3060 FP64测试与猜想。原创 2024-09-09 18:53:33 · 1036 阅读 · 0 评论 -
cuda block之间的同步测试
本文测试了cuda block之间的同步行为。原创 2024-09-09 11:47:19 · 686 阅读 · 0 评论 -
测试CUDA __threadfence的行为
测试CUDA __threadfence的行为。原创 2024-09-06 15:36:34 · 368 阅读 · 0 评论 -
NVIDIA GPU atom.global指令Profing
本文对NVIDIA GPU atom.global指令Profing,并小结。原创 2024-09-04 17:50:27 · 433 阅读 · 0 评论 -
NV GPU FMA指令测试
本文测试了NV GPU FMA指令的行为。原创 2024-08-27 18:42:52 · 1252 阅读 · 0 评论 -
验证4个SMSP是否是串行访问ShareMemory的
原以为4个smsp中的warp在没有bank冲突的情况下,是可以并行访问共享内存的通过下面的测试发现,其实是串行的,share memory每个cycle只能处理一个请求。原创 2024-08-27 18:31:59 · 1000 阅读 · 0 评论 -
测试cuda-gdb调试某个线程,是否会影响其它线程
测试cuda-gdb调试某个线程,是否会影响其它线程。原创 2024-08-23 19:07:29 · 418 阅读 · 0 评论 -
测试cuda trap指令在cuda-gdb下的行为
本文测试cuda trap指令在cuda-gdb下的行为)原创 2024-08-23 19:06:23 · 297 阅读 · 0 评论 -
测试cuda trap指令对warp的影响
本文测试cuda trap指令对warp的影响。原创 2024-08-23 19:05:09 · 390 阅读 · 0 评论 -
测试NV GPU SM的时钟是否一致
测试NV GPU SM的时钟是否一致。原创 2024-08-23 19:03:57 · 341 阅读 · 0 评论 -
统计一条cuda ld指令需要经过哪些硬件单元--演示CuAssembler如何修改CUDA SASS指令
统计一条cuda ld指令需要经过哪些硬件单元--演示CuAssembler如何修改CUDA SASS指令原创 2024-08-12 17:40:36 · 520 阅读 · 0 评论 -
NCU获取GPU各单元的峰值性能
本文演示了,NCU如何获取GPU各单元的峰值性能。原创 2024-08-10 17:06:47 · 1039 阅读 · 5 评论 -
获取淘票票上某个电影在全国各影院的票价
【代码】获取淘票票上某个电影在全国各影院的票价。原创 2024-08-10 15:47:15 · 504 阅读 · 0 评论 -
使用二条PTX MMA m16n8k16指令实现一个16x16x16的GEMM,并跟wmma对比差异
本文演示,如何使用二条PTX MMA m16n8k16指令实现一个16x16x16的GEMM,并跟wmma对比差异原创 2024-08-09 22:19:50 · 600 阅读 · 0 评论 -
WMMA API DEMO
本文演示了WMMA API的使用。原创 2024-08-09 17:18:52 · 336 阅读 · 0 评论