- 博客(6)
- 收藏
- 关注
原创 cuda编程架构
2、tensor core 表示fp16/fp32的矩阵运算数量,矩阵大小可以是4。4、显存位宽表示gpu与显存之间的数据传输速率,单位bit,表示每个时钟读取的数量。1、cuda core 表示fp16/fp32的运算单元数量。4 FMA运算,表示的是一个时钟周期可以进行4。3、每秒的运算数量=核心时钟频率。5、显存速度=显存频率*显存位宽。2=128个flops运算。每个时钟周期的运算数。
2024-04-30 21:25:55
72
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人