cuda编程架构理解
1、cuda core 表示fp16/fp32的运算单元数量
2、tensor core 表示fp16/fp32的矩阵运算数量,矩阵大小可以是444 FMA运算,表示的是一个时钟周期可以进行4442=128个flops运算
3、每秒的运算数量=核心时钟频率每个时钟周期的运算数
4、显存位宽表示gpu与显存之间的数据传输速率,单位bit,表示每个时钟读取的数量
5、显存速度=显存频率*显存位宽
参考文档:https://zhuanlan.zhihu.com/p/417524762