CUDA
文章平均质量分 89
Janus_V
这个作者很懒,什么都没留下…
展开
-
ubuntu18.04 安装CUDA11.2
Ubuntu配置CUDA:也不知道是谁说的Ubuntu配置CUDA比win10容易, 反正我前前后后整了2天, 裂开了这里记录一下详细的步骤前言:本地环境为ubuntu18.04.5 LTS这里使用新装的系统, 所以操作会有点粗犷, 使用暴力指令等, 效仿者请注意本文为经典事后烟,可能存有大量疏漏, 效仿者请注意操作过程全部使用SSH远程链接这里给出老黄官方CUDA Toolkit 的安装教程, 有啥步骤不明确以这个为准https://docs.nvidia.com/cuda/cud原创 2021-03-02 00:08:50 · 7893 阅读 · 2 评论 -
CentOS 7 安装CUDA 11.2
安装显卡驱动:详细过程可参照我的另一篇博客:https://blog.csdn.net/qq_42683011/article/details/115436242安装CUDA:参考博客:https://blog.csdn.net/xueshengke/article/details/78134991到官网下载完合适版本的cuda .run安装包后, 直接以root身份运行:./cuda_11.2.0_460.27.04_linux.run之后会解压, 并进入安装界面由于我们之前已经安原创 2021-04-05 10:00:50 · 6727 阅读 · 1 评论 -
ESXi 6.5 虚拟机直通K80显卡并安装NVIDIA显卡驱动:
本地环境:Dell PowerEdge R720 2680v2 *2 ddr3 1333MHz 32GESXi 6.5 U2 Dell定制版CentOS 7虚拟机 WIn10 虚拟机K80显卡同时还插着AMD显卡安装驱动前的必备操作:参考博客:https://blog.51cto.com/5001660/2483307按照这个设置, 能完成一大半的操作但是还有些必备操作, 否则虚拟机开机会出问题以下全部是我遇到的问题虚拟机加载到42%, 然后报打开模块DevicePow原创 2021-04-05 00:57:16 · 7121 阅读 · 0 评论 -
CUDA版本与显卡驱动对照表
最新数据直接参考官网:https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/index.html#title-resolved-issuesCUDA版本必须与所支持的驱动相对应Component NameVersion InformationSupported ArchitecturesCUDA Runtime (cudart)11.2.146x86_64, POWER, Arm64cuobjdump11.2.原创 2021-02-28 23:49:56 · 35276 阅读 · 1 评论 -
CUDA编程第七章: 调整指令级原语
本章内容:学习CUDA指令及其在应用程序行为中的作用单浮点数和双浮点数的精确度对比有关标准函数及CUDA内部函数的性能和精确度的实验从不安全的内存访问中发现未定义行为理解运算指令的意义和使用不当所产生的后果当决定使用CUDA处理一个特殊的应用程序时,通常主要应该考虑的是GPU的计算吞吐量可以将应用程序分为两类:I/O密集型计算密集型本章重点介绍计算密集型应用本章节重点理解不同低级原语的性能、数值精确度和线程安全性方面的优缺点知道内核代码在什么时候被原创 2021-02-19 20:30:30 · 1113 阅读 · 0 评论 -
CUDA编程第六章: 流和并发
本章内容:理解流和事件的本质理解网格级并发重叠内核执行和数据传输重叠CPU和GPU执行理解同步机制避免不必要的同步调整流的优先级注册设备回调函数通过NVIDIA可视化性能分析器显示应用程序执行的时间轴一般来说,在CUDA C编程中有两个级别的并发:内核级并发网格级并发到目前为止,你的关注点可能仅限于内核级的并发,在此级别的并发中,单一的任务或内核被GPU的多个线程并行执行。前面几章已经介绍了提升内核性能的几种方法,它们分别是从编程原创 2021-02-16 22:12:49 · 3474 阅读 · 1 评论 -
CUDA计算能力&显卡对照表
CUDA计算能力&显卡对照表:最新信息参考这个:https://developer.nvidia.com/cuda-gpusTesla Workstation ProductsGPUCompute CapabilityTesla K803.7Tesla K403.5Tesla K203.5Tesla C20752.0Tesla C2050/C20702.0NVIDIA Data Center ProductsGPUC原创 2021-02-16 16:31:02 · 48793 阅读 · 11 评论 -
CUDA编程第五章: 共享内存&常量内存
本章大概50页, 2天之内看完前言:本章内容:了解数据在共享内存中是如何被安排的掌握从二维共享内存到线性全局内存的索引转换解决不同访问模式中存储体中的冲突在共享内存中缓存数据以减少对全局内存的访问使用共享内存避免非合并全局内存的访问理解常量缓存和只读缓存之间的差异使用线程束洗牌指令编程在前面的章节中, 已经介绍了几种全局内存的访问模式. 通过安排全局内存访问模式, 我们学会了如何实现良好的性能并且避免了浪费事务. 未对齐的内存访问是没有问题的, 因为现.原创 2021-02-16 10:49:25 · 6104 阅读 · 2 评论 -
CUDA编程第四章: 全局内存
前言:本章内容:学习CUDA内存模型CUDA内存管理全局内存编程探索全局内存访问模式研究全局内存数据布局统一内存编程最大限度地提高全局内存吞吐量在上一章中,你已经了解了线程是如何在GPU中执行的,以及如何通过操作线程束来优化核函数性能。但是,核函数性能并不是只和线程束的执行有关。回忆一下第3章的内容,在3.3.2节中,把一个线程块最里面一层的维度设为线程束大小的一半,这导致内存负载效率的大幅下降。这种性能损失不能用线程束调度或并行性来解释,造成这种性能损失的原创 2021-02-03 12:07:56 · 3047 阅读 · 0 评论 -
CUDA编程第三章: CUDA执行模型
前言:本章内容:通过配置文件驱动的方法优化内核理解线程束执行的本质增大GPU的并行性掌握网格和线程块的启发式配置学习多种CUDA的性能指标和事件了解动态并行与嵌套执行通过上一章的练习, 你已经学会了如何在网格和线程块中组织线程以获得最佳的性能. 尽管可以通过反复试验找到最佳的执行配置, 但你可能仍然会感到疑惑, 为什么选择这样的执行配置会更好. 你可能想知道是否有一些选择网格和块配置的准则. 本章将会回答这些问题, 并从硬件方面深入介绍内核启动配置和性能分析的信息原创 2021-02-03 12:00:27 · 2344 阅读 · 0 评论 -
CUDA编程第二章: CUDA编程模型
CUDA编程模型概述:以程序员的角度可以从以下几个不同的层面来看待并行计算。领域层逻辑层硬件层在编程与算法设计的过程中,你最关心的应是在领域层如何解析数据和函数,以便在并行运行环境中能正确、高效地解决问题。当进入编程阶段,你的关注点应转向如何组织并发线程。在这个阶段,你需要从逻辑层面来思考,以确保你的线程和计算能正确地解决问题。在C语言并行编程中,需要使用pthreads或OpenMP技术来显式地管理线程。CUDA提出了一个线程层次结构抽象的概念,以允许控制线程行为。在阅读本书原创 2021-01-18 11:35:42 · 870 阅读 · 2 评论 -
CUDA编程第一章: 基于CUDA的异构并行计算
并行计算:本部分主要讲解并行的基础知识, 在前头的MPI & OpenMP并行编程基础基本掌握过了, 直接Pass异构计算:这里的内存带宽应该指的是显存带宽CPU & GPU的选择:有两个考量点:并行性数据规模如果一个问题有较小的数据规模、复杂的控制逻辑和/或很少的并行性,那么最好选择CPU处理该问题,因为它有处理复杂逻辑和指令级并行性的能力。如果该问题包含较大规模的待处理数据并表现出大量的数据并行性,那么使用GPU是最好的选择。因为GPU中有大量可编程的核心,可原创 2021-01-18 11:35:06 · 583 阅读 · 1 评论 -
windows下CUDA环境配置
CUDA环境配置:本地环境:win10 1909vs2017CUDA v11.2所有步骤基本上参照这个博客:https://blog.csdn.net/xianhua7877/article/details/80792027其中由于CUDA版本不同, 需要做一点小修正:SDK这里, 路径暂时没有添加, 现在跑起来好像也没啥问题, 先放着添加依赖项这里, 新版本中有部分的lib没有, 如果全添加的话会导致有些打不开之类的问题:修正如下:cublas.libcuda.li原创 2020-12-23 17:41:43 · 1879 阅读 · 0 评论