自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 使用TC优化量化图神经网络QGTC: Accelerating Quantized Graph Neural Networks via GPU Tensor Core

提出了第一个基于Tensor Core (TC)的、支持任意位宽QGNN计算的框架,QGTC引入了基于低位数据表示(low-bit data representation)和位分解计算(bit-decomposed computation)的量化低位计算设计;通过3D堆叠位压缩技术(3D-stacked bit-compression technique)、zero-tile jumping、non-zero tile reuse制作了一个TC定制的CUDA kernel;

2024-01-19 11:01:40 1230 1

原创 GNN框架优化GNNAdvisor: An Adaptive and Efficient Runtime System for GNN Acceleration on GPUs

这篇论文主要关注点在于如何利用model dataset的特点,来针对性地做优化,发挥在给定model dataset上的最大性能。第三章,讲述了作者设计第四章、第五章优化策略所根据的性质。第四章,考虑的主要是节点度数和embedding维度,对于节点度数大的而言,节点上的并行(邻居划分 4.1)更有帮助,而对于embedding维度大的而言,embedding上的并行(维度划分 4.2)更有帮助。4.3讲了如何在硬件层面上实现4.1 4.2提到的策略。

2023-12-30 16:56:25 853

原创 CUDA统一内存优化DeepUM: Tensor Migration and Prefetching in Unified Memory

利用CUDA Unified Memory,训练超出GPU内存容量的DNN。其实Unified Memory允许通过缺页异常来训练超出GPU内存容量的DNN,但是页面的迁移带来了很大的开销。DeepUM使用一种新的关联预取技术来隐藏页面传输的开销。作者和vDNN、SuperNeurons、capuchin等之前的sota比较,性能很好。DeepUM的关注点在memory swapping。

2023-12-18 21:14:46 975 1

原创 CUDA学习笔记2——全局内存的合理使用(以矩阵转置为例,讲述全局内存的合并访问以及__ldg())

(PS:在一次数据传输中,转移的一片内存的首地址一定是32的整数倍,例如一次数据传输只能从全局内存读取地址为0到31字节、32到63字节等片段的数据;合并访问指的是一个warp对全局内存的一次访问请求导致最少数量的数据传输。第一个线程块中的warp访问x的1到32号元素(标号从0开始),假设x的首地址是256字节,那么该warp访问的数据对应的地址是260到387字节。在这里,对A的访问是非合并的,对B的访问是合并的(相邻线程访问相邻矩阵元素)。在这里,对A的访问是合并的,对B的访问是非合并的。

2023-12-10 21:04:23 1674

原创 CUDA学习笔记1——线程组织、HelloWorld、数组相加、内存结构、核函数、设备函数

一个SM中寄存器的数量比较有限,一旦核函数使用了超过硬件限制的寄存器数量,则会使用本地内存来代替多占用的寄存器,这种寄存器溢出的情况会带来性能上的不利影响,实际编程过程中我们应该避免这种情况。操作系统在逻辑层面将CPU内存分为两类:可分页内存(Pageable Memory)和页锁定内存(Page Lock Memory, 又称为Pinned Memory),可分页内存没有锁定特性,可能会被交换出去,比如传输到硬盘上,而页锁定内存具有锁定特性,不会被交换出去。共享内存具有仅次于寄存器的读写速度。

2023-12-10 12:04:05 928

原创 The user does not have permission to access NVIDIA GPU Performance Counters on the target device 0

使用sudo权限,即使用sudo ncu来执行命令。(需自行替换,这里只是举例说明)(需自行替换,这里只是举例说明)

2023-11-29 19:48:40 1222

原创 G10: Enabling An Efficient Unified GPU Memory and Storage Architecture with Smart Tensor Migrations

作者提出了:a unified GPU memory and storage architecture named G10G10融合了GPU内存、主机内存、闪存,实现了统一内存访问、透明的数据迁移,基于这个统一的内存访问,G10借助编译技术获取DL中tensor的特征,以此实现后续的数据调度。

2023-11-25 21:18:53 1662

原创 非root用户安装cuda、pytorch、pyg,并使用ncu对pyg程序做分析

安装完毕之后,如果nvcc -V显示cuda是11.3版本,就成功了。然后就可以安装pytorch了。https://zhuanlan.zhihu.com/p/198161777 这个教程,写环境变量那几句,中间那一句应该是export PATH="/public/home/jd_lulin/cuda-10.1/bin:$PATH",而不是他正文中写的export PATH=$PATH:/home/zhaoqc/cuda-10.2/bin 注意啊,正文里面出现的路径、版本号,你要看情况替换成自己的。

2023-07-26 20:13:43 285 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除