cuda编程笔记

最新推荐文章于 2024-08-21 10:33:55 发布

qq_29707567

最新推荐文章于 2024-08-21 10:33:55 发布

阅读量516

点赞数

分类专栏： AI测试文章标签： linux 运维服务器 ai

本文链接：https://blog.csdn.net/qq_29707567/article/details/127305157

版权

AI测试专栏收录该内容

35 篇文章 0 订阅

订阅专栏

####################################################################
cuda环境配置第四课
####################################################################
https://www.bilibili.com/video/BV1kx411m7Fk?p=4&spm_id_from=pageDriver
###############################
一、系统环境查看
1.查看系统版本号
cat /etc/issue
2.查看内核版本号
uname -aG
3.查看系统上安装的gpu卡的型号是什么
lspci | grep -i nvidia
4.查看是否安装了gcc
gcc -v
二、安装之前历史版本
1、卸载之前安装的历史版本驱动
sudo nvidia-uninstall

2.清除之前nvidia相关的库
sudo apt-get --purge remove nvidia-*

3.环境变量修改
source .bashrc

4.查看cudatoolkit版本号
nvcc --version

5.验证是否安装成功
sample下尝试编译看是否可以成功

samples/bin/x86_x64/linux/relase

/tools/NVIDIA_CUDA-11.4_Samples/bin/x86_64/linux/release$ ./deviceQuery 查看设备情况

####################################################################
cuda gpu设计思路架构 lesson5
####################################################################
1、ALU 计算单元每个可以单独计算数据
上下文
存储空间
指令流

2、GPU设计思路：employed 利用压榨剥削
   只把上手工作的人员留下来，不要管理者
   只留下干活的人，且每个干活的人配置很多个干活的手
   干活的人不停团团转，不停干活，只要停下来等待会给分配其他的活儿

3、GPUcore设计思路
sm-cuda核

4、访存问题如何规整、访问数据
   cpu：
       缓存占用很大分级一般分为3级
       显存
   访存带宽是非常宝贵的资源：1、高端gpu计算能力强大干货能力强但是数据供应不上路不够宽人在闲着半开工状态效率低下
   gpu访存设计：
       总线带宽设计的非常宽，高速路很宽，但是和gpu处理能力相比还不是很充分（gpu处理能力是cpu的10倍以上）

   优化思路：
       尽量把访存的时间压缩到一起，把需要的不同数据一起读取进来
       gpu中的的主存很大（和cpu相反）
5、gpu架构
异构的：有不同的结构
重核的：很多核成百上千
处理速度快

6、高效gpu任务的条件
最好有大量的独立工作，可以利用大量的aiu单元
尽量要有计算密集的任务
最好不需要很高的访存

####################################################################
cuda和gpu编程模型 lesson6
####################################################################
1、cpu gpu互动模型 2者如何交互的
- 各自有自己的物理空间
- 访存速度
   寄存器
   localmemory sm内部在显存里
   globalmemory

2、gpu线程组织模型
   线程并行
   多线程执行相同的流
   大量的线程在承载和调度

3、gpu存储模型

4、编程介绍
扩展的c语言，基本是c语言，加了一些前缀修饰词

####################################################################
cuda编程 lesson7
https://www.bilibili.com/video/BV1kx411m7Fk?p=7&spm_id_from=pageDriver
####################################################################
1、架构设计特点
适合计算密集、高度可并行
gpu中的计算占比高

2、gpgpu 最前面的是通用计算把图形计算协处理器发展为通用计算的完整结构

3、cuda线程层次化线程集合共享存储

4、host一般指cpu device通常指gpu
数据并行化代码基于cuda c编程或者fortune
host和device 2者拥有独立的存储器，数据存储、分布设计需要考虑

cuda编程包含主机端和设备端
kernal：设备端执行的并发函数主机端硬件负责创建和管理线程和普通线程不同

5、
grid 公司
block 科室
线程人
block内部的线程可以共享存储器（科室内部的员工可以步调一致做事情、共享硬件资源）

6、block
一维线
二维面
三维体

7、线程索引：员工编号
需要有block编号、员工编号
sm：完整的cuda核
内存中的数据传输

8、存储器3个层次
每个线程私有的寄存器每个人的办公桌
线程块共享存储器每个科室公共的打印机、写字台，不给其他科室用
整个gpu globalmemory的共享存储器：所有公司的人都可以访问比如食堂

device端：
每个线程员工可以干什么：可以使用个人私有的寄存器、整个线程块共享的资源、global memory公共的存储器
constant memory：固定值存储器为了多个线程使用某个不变的数据比如公司的公示牌、公告，只读的不能写

主机端：
可以读写gpu上的constant memory、global memory、

数据传输：
constant memory、global memory 都是存在gpu芯片中的；

内存操作cudamemcp：
cpu之间、主机<->设备之间、设备端内部

qq_29707567

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
cuda编程笔记

总线带宽设计的非常宽，高速路很宽，但是和gpu处理能力相比还不是很充分（gpu处理能力是cpu的10倍以上）constant memory：固定值存储器为了多个线程使用某个不变的数据比如公司的公示牌、公告，只读的不能写。每个线程员工可以干什么：可以使用个人私有的寄存器、整个线程块共享的资源、global memory公共的存储器。block内部的线程可以共享存储器（科室内部的员工可以步调一致做事情、共享硬件资源）只留下干活的人，且每个干活的人配置很多个干活的手。
复制链接

扫一扫

专栏目录