NVIDIA CUDA初级教程视频--(四)

第四章GPU体系架构概述

1.FLOPS:每秒可进行的浮点数运算
GFLOPS:每秒可进行的十亿浮点数运算
TFLOPS:每秒可进行调度一万亿次浮点数运算
2.GPU是一个 异构的多处理器芯片,为图形图像处理优化
ShaderCore:渲染器,最基本的ALU计算单元,分派器等
3.执行单元:取址译码,ALU,上下文执行单元
附加:缓存区,乱序控制逻辑,分支预测器,存储器管理单元
优化①:精简:把很复杂的CPU精简,只留下最核心的部分
优化②:双核,同时执行两个程序片元 甚至四核,十六核 要求多个程序片元指令流共享
增加ALU,SIMD 一个核可以处理多个数据,执行向量操作,但是指令的执行逻辑不需要变化
SIMD处理并不总是需要显式的SIMD指令,还可以提供标量指令,硬件进行矢量化
优化③:停滞:大量的独立片元相互切换,通过片元切换来掩藏延迟 来获得较高的吞吐
上下文存储空间:可以把大的存储空间转化为小的存储空间,有好的延迟掩藏效果
但是也可以编程稍微大一点的存储空间 但是上下文切换比较少,但是延迟掩藏效果
上下文切换也是可以由软件管理也是可以由硬件管理
4.访存带宽是非常重要的资源 GPU总线带宽是非常宽的,
很多超级计算的应用大量时间都是在访存,就是带宽受限
减少带宽需求:减少不必要的数据请求,
GPU:主存带宽很大 GPU是异构 众核 处理器 针对吞吐优化
高效的GPU任务具备的条件
具有成千上万的独立工作
尽量利用大量的ALU单元
大量的片元切换掩藏延迟
可以共享指令流
适用于SIMD处理
最好是计算密集的任务
通信和计算开销比例合适
不要受制于访存带宽

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值