ILL.-CSDN博客

原创使用TC优化量化图神经网络QGTC: Accelerating Quantized Graph Neural Networks via GPU Tensor Core

提出了第一个基于Tensor Core (TC)的、支持任意位宽QGNN计算的框架，QGTC引入了基于低位数据表示（low-bit data representation）和位分解计算（bit-decomposed computation）的量化低位计算设计；通过3D堆叠位压缩技术（3D-stacked bit-compression technique）、zero-tile jumping、non-zero tile reuse制作了一个TC定制的CUDA kernel；

2024-01-19 11:01:40 1490 1

原创 GNN框架优化GNNAdvisor: An Adaptive and Efficient Runtime System for GNN Acceleration on GPUs

这篇论文主要关注点在于如何利用model dataset的特点，来针对性地做优化，发挥在给定model dataset上的最大性能。第三章，讲述了作者设计第四章、第五章优化策略所根据的性质。第四章，考虑的主要是节点度数和embedding维度，对于节点度数大的而言，节点上的并行（邻居划分 4.1）更有帮助，而对于embedding维度大的而言，embedding上的并行（维度划分 4.2）更有帮助。4.3讲了如何在硬件层面上实现4.1 4.2提到的策略。

2023-12-30 16:56:25 1155

原创 CUDA统一内存优化DeepUM: Tensor Migration and Prefetching in Unified Memory

利用CUDA Unified Memory，训练超出GPU内存容量的DNN。其实Unified Memory允许通过缺页异常来训练超出GPU内存容量的DNN，但是页面的迁移带来了很大的开销。DeepUM使用一种新的关联预取技术来隐藏页面传输的开销。作者和vDNN、SuperNeurons、capuchin等之前的sota比较，性能很好。DeepUM的关注点在memory swapping。

2023-12-18 21:14:46 1742 1

原创 CUDA学习笔记2——全局内存的合理使用（以矩阵转置为例，讲述全局内存的合并访问以及__ldg()）

（PS：在一次数据传输中，转移的一片内存的首地址一定是32的整数倍，例如一次数据传输只能从全局内存读取地址为0到31字节、32到63字节等片段的数据；合并访问指的是一个warp对全局内存的一次访问请求导致最少数量的数据传输。第一个线程块中的warp访问x的1到32号元素（标号从0开始），假设x的首地址是256字节，那么该warp访问的数据对应的地址是260到387字节。在这里，对A的访问是非合并的，对B的访问是合并的（相邻线程访问相邻矩阵元素）。在这里，对A的访问是合并的，对B的访问是非合并的。

2023-12-10 21:04:23 2040

原创 CUDA学习笔记1——线程组织、HelloWorld、数组相加、内存结构、核函数、设备函数

一个SM中寄存器的数量比较有限，一旦核函数使用了超过硬件限制的寄存器数量，则会使用本地内存来代替多占用的寄存器，这种寄存器溢出的情况会带来性能上的不利影响，实际编程过程中我们应该避免这种情况。操作系统在逻辑层面将CPU内存分为两类：可分页内存（Pageable Memory）和页锁定内存（Page Lock Memory, 又称为Pinned Memory），可分页内存没有锁定特性，可能会被交换出去，比如传输到硬盘上，而页锁定内存具有锁定特性，不会被交换出去。共享内存具有仅次于寄存器的读写速度。

2023-12-10 12:04:05 1161

原创 The user does not have permission to access NVIDIA GPU Performance Counters on the target device 0

使用sudo权限，即使用sudo ncu来执行命令。（需自行替换，这里只是举例说明）（需自行替换，这里只是举例说明）

2023-11-29 19:48:40 2527 1

原创 G10: Enabling An Efficient Unified GPU Memory and Storage Architecture with Smart Tensor Migrations

作者提出了：a unified GPU memory and storage architecture named G10G10融合了GPU内存、主机内存、闪存，实现了统一内存访问、透明的数据迁移，基于这个统一的内存访问，G10借助编译技术获取DL中tensor的特征，以此实现后续的数据调度。

2023-11-25 21:18:53 1905

原创非root用户安装cuda、pytorch、pyg，并使用ncu对pyg程序做分析

安装完毕之后，如果nvcc -V显示cuda是11.3版本，就成功了。然后就可以安装pytorch了。https://zhuanlan.zhihu.com/p/198161777 这个教程，写环境变量那几句，中间那一句应该是export PATH="/public/home/jd_lulin/cuda-10.1/bin:$PATH"，而不是他正文中写的export PATH=$PATH:/home/zhaoqc/cuda-10.2/bin 注意啊，正文里面出现的路径、版本号，你要看情况替换成自己的。

2023-07-26 20:13:43 645 1

illyh的博客