CUDA实战教程专栏完整目录

CUDA实战教程专栏完整目录

专栏说明如下

内容:CUDA实战教程
数量:137篇博文(2023年2月15日截止)
更新时间至:2023年2月15日(后续加上去的博文,会每几个月同步目录一次)
目录顺序:创作时间由近到远(哈哈,我是故意的,就是想让你翻下去看看。)
状态:会持续更新

专栏目录

CUDA:工作负载遵循CPU预处理->GPU处理->CPU后处理的形式的实例点击进入
CUDA:CUDA事件在GPU计时和重叠的CPU和GPU执行的实例点击进入
CUDA: 对齐和未对齐结构之间的巨大访问速度差距实例点击进入
CUDA: 从磁盘加载三维体积,并使用光线行进和三维纹理显示它实例点击进入
CUDA: 模拟大型鸟类形成V形群实例点击进入
CUDA: 使用SIMD SAD(绝对差之和)内部函数计算立体视差图实例点击进入
CUDA: SLI与Direct3D10纹理和CUDA的互操作性实例点击进入
CUDA: OpenGL绑定 使用Cuda内核动态修改顶点缓冲区实例点击进入
CUDA:CUDA Direct3D绑定在CUDA和DX9 2D、CubeMap和Volume Textures之间传输数据实例点击进入
CUDA:将CUDA Direct3D绑定与运行时API一起使用实例点击进入
CUDA:递归高斯滤波器实例点击进入
CUDA:使用CUDA/OpenGL互操作性对在OpenGL中生成的3D场景的图像进行后处理实例点击进入
CUDA:p2p带宽延迟测试实例点击进入
CUDA:对图像执行简单的双边滤波 并使用OpenGL显示结果实例点击进入
CUDA:在CUDA中高效地实现双三次纹理过滤实例点击进入
CUDA:在NPP中实现流域规划实例点击进入
CUDA:显示CUFFT用于使用FFT的快速1D卷积实例点击进入
CUDA:CUFFT用于使用FFT的快速1D卷积的实例点击进入
CUDA:使用CUFFT在多个GPU上使用FFT求解2D-POISSON方程实例点击进入
CUDA:显示CUFFT用于使用FFT的快速1D卷积实例点击进入
CUDA:使用10000个大小为4x4的矩阵,并使用批分解API cuBLAS库对其进行LU分解实例点击进入
CUDA:通过缩放设备上的浮点值数组并将结果与主机上执行的相同操作进行比较实例点击进入
CUDA:randomFog随机雾实例点击进入
CUDA:使用CUFFT来合成和 实时渲染海洋表面实例点击进入
CUDA:nvJPEG库的用法nvJPEG编码器支持单个和多个图像编码实例点击进入
CUDA:nvJPEG支持单图像和多图像(批处理)解码实例点击进入
CUDA:何使用CURAND在GPU和CPU上生成随机数实例点击进入
CUDA:矩阵乘法,并使用CUBLAS库演示了最佳性能实例点击进入
CUDA:简单视线算法实例点击进入
CUDA:在NPP中直方图均衡化实例点击进入
CUDA:在NPP中使用FreeImage库实例点击进入
CUDA:NPP过滤函数的任何边界实例点击进入
CUDA:三个线性解算器,包括Cholesky、LU和QR实例点击进入
CUDA:cuSolverRf库实例点击进入
CUDA:线性解算器实例点击进入
CUDA:StandaloneMode单一模式实例点击进入
CUDA:CUDLA混合模式实例点击进入
CUDA:CUDLA错误报告实例点击进入
CUDA:使用CUBLAS和CUSPARSE在GPU上实现共轭梯度解算器实例点击进入
CUDA:使用CUBLAS和CUSPARSE求解三角系统用于在均匀网格上求解二维拉普拉斯算子实例点击进入
CUDA:统一内存优化的预取和使用提示在多个GPU上实现共轭梯度解算器实例点击进入
CUDA:多块协作组在GPU上实现共轭梯度解算器实例点击进入
CUDA:使用CULAS和CUSPARSE以及CUDA Graphs在GPU上实现共轭梯度解算器实例点击进入
CUDA:使用CUBLAS和CUSPARSE在GPU上实现共轭梯度解算器实例点击进入
CUDA:实现NPPcanny边缘检测器实例点击进入
CUDA:实现NPP过滤器实例点击进入
CUDA:实现批次标签标记和标签压缩NPP实例点击进入
CUDA:使用流对CUBLAS调用进行批处理来获得更好的性能实例点击进入
CUDA:为原子操作(Atomic Functions)执行线程束聚合实例点击进入
CUDA:扭曲矩阵乘法的tf32(E8M10)GEMM计算实例点击进入
CUDA:Stream Priorities流优先级实例点击进入
CUDA:Cuda Graphs图实例点击进入
CUDA:从PTX代码使用驱动程序API实例点击进入
CUDA:通过设备C++新建和删除运算符以及虚拟函数声明的动态全局内存分配实例点击进入
CUDA:使用cuMemMap API和每个GPU一个进程进行计算的进程间通信实例点击进入
CUDA:线性系统a*x=b上的Jacobi方法实例点击进入
CUDA:使用扭曲矩阵乘法和累加API进行的整数GEMM计算实例点击进入
CUDA:实现图形内存节点的实例点击进入
CUDA:实现图形内存足迹的实例点击进入
CUDA:实现矩阵乘法,它利用共享内存确保数据重用,矩阵乘法是使用平铺方法完成的的实例点击进入
CUDA:使用Warp的双精度GEM计算的实例点击进入
CUDA:使用扭曲矩阵乘法的GEM计算的实例点击进入
CUDA:可压缩内存的实例点击进入
CUDA:cdp简单快速排序的实例点击进入
CUDA:打印当前线程栅格中所有id为0的线程的实例点击进入
CUDA:cdp四叉树Quadtree算法的实例点击进入
CUDA:Bezier曲线生成算法的实例点击进入
CUDA:并行快速排序的实例点击进入
CUDA:实现两个内核,一个用于渲染每帧,另一个用于 另一个用于在启动时生成mip映射级别的实例点击进入
CUDA:二进制分区协作组基本用法的实例点击进入
CUDA:扭曲矩阵乘法的__nv_bfloat16(E8M7)GEMM计算的实例点击进入
CUDA:对值数组执行归约操作,以在单个内核中生成单个值的实例点击进入
CUDA:通过简单内核对分配了cudaMallocAsync和cudaMemPool系列API的流有序内存进行对等访问的实例点击进入
CUDA:使用每个GPU一个进程进行计算的进程间通信的实例点击进入
CUDA:使用cudaMallocAsync和cudaMemPool系列API在GPU上按流排序的内存分配的实例点击进入
CUDA:shuffle内在函数使用的实例点击进入
CUDA:一种图像分割方法(基于Boruvka的MST算法)的实例点击进入
CUDA:scan算法的实例点击进入
CUDA:计算给定一组输入向量对的标量积的实例点击进入
CUDA:对值数组执行归约操作,以在单个内核中生成单个值的实例点击进入
CUDA:对值数组执行缩减操作以生成单个值的实例点击进入
CUDA:radixSort基数排序的实例点击进入
CUDA:CUDA内核中内联PTX(汇编语言)用法的实例点击进入
CUDA:两种自适应图像去噪技术KNN和NLM的实例点击进入
CUDA:任意大小的8位数据阵列的64位直方图计算的实例点击进入
CUDA:实现Sobel边缘检测滤波器的实例点击进入
CUDA:EGLImage+EGLSync与CUDA的互操作的实例点击进入
CUDA:使用CUDA钩子库接收回调的实例点击进入
CUDA:convolutionTexture卷积纹理的实例点击进入
CUDA:convolutionSeparable可分离卷积结构的实例点击进入
CUDA:对图像执行简单的框过滤器 并使用OpenGL显示结果的实例点击进入
CUDA:在当前系统拓扑上使用查询信息的实例点击进入
CUDA:查询系统中存在的CUDA设备的属性的实例点击进入
CUDA:通过CUDA运行时API查询系统中存在的CUDA设备的属性的实例点击进入
CUDA:测量GPU内存复制带宽的实例点击进入
CUDA:逐元素实现矢量加法的实例点击进入
CUDA:使用线程和流实现了一个简单的任务使用者 统一内存中的所有数据的实例点击进入
CUDA:设置项目示例应用程序的基础知识的模板项目的实例点击进入
CUDA:可迁移内存上使用系统范围原子的程序的实例点击进入
CUDA:Zero Copy零拷贝的实例点击进入
CUDA:跨扭曲 vote(任何)内在的实例点击进入
CUDA:对纹理坐标(u,v)进行简单的2D变换(旋转)的实例点击进入
CUDA:从磁盘加载三维体积,并使用三维纹理查找显示其切片的实例点击进入
CUDA:取输入PGM映像并生成 输出PGM图像的实例点击进入
CUDA:正确地模板化动态分配的共享内存阵列的实例点击进入
CUDA:在CUDA中使用纹理获取的实例点击进入
CUDA:将内核执行与设备/主机memcopy重叠的实例点击进入
CUDA:分离编译的实例点击进入
CUDA:simplePrint简单打印的实例点击进入
CUDA:使用绑定到间距线性内存的纹理的实例点击进入
CUDA:对等(P2P)和统一虚拟地址空间(UVA)功能的组合的实例点击进入
CUDA:测试Occupancy占用率的实例点击进入
CUDA:使用CUDA API来使用多个GPU的实例点击进入
CUDA:CUDA流实现内核执行与向设备复制数据和从设备复制数据的重叠的实例点击进入
CUDA:将MPI与CUDA一起使用的实例点击进入
CUDA:在CUDAC中使用从分层2D纹理提取的纹理的实例点击进入
CUDA:使用每个GPU一个进程进行计算的进程间通信的实例点击进入
CUDA:HyperQ如何允许支持设备避免不同流中内核之间的错误依赖关系的实例点击进入
CUDA:矢量加法C=A+B的实例点击进入
CUDA:CUDA转OPENGL的实例点击进入
CUDA:在CUDAC中使用从分层2D纹理提取的纹理的实例点击进入
CUDA:启动线程块内的协作组的实例点击进入
CUDA:线程屏障Barrier的实例点击进入
CUDA:simpleAttributes简单属性的实例点击进入
CUDA:全局内存原子atomic函数的简单使用的实例点击进入
CUDA:测试断言Assert函数的实例点击进入
CUDA:实现mergeSort合并排序的实例点击进入
CUDA:使用CUDA驱动程序API实现矩阵乘法的实例点击进入
CUDA:利用共享内存的矩阵乘法的实例点击进入
CUDA:计算两个16位浮点型向量的标量积的实例点击进入
CUDA:在CPU端使用OpenMP进行线程处理的多GPU的实例点击进入
CUDA:核函数重载的实例点击进入
CUDA:将CUDA功能集成到现有应用程序/框架的实例点击进入
CUDA:使用流进行并发执行的实例点击进入
CUDA:CUDA时钟的实例点击进入
CUDA:使用时钟函数来测量性能的实例点击进入
CUDA:基于C++11的CUDA的实例点击进入

  • 1
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

源代码大师

赏点狗粮吧

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值