一文看懂谷歌TPU内部原理:它为何碾压GPU
吞吐量是GPU的20~70倍;
原理:
1. 预测阶段,使用8位整数量化;
2. 一个TPU包含65,536个8位整数乘法和加法单元,GPU通常包含数千个32位浮点乘法器,因此TPU的计算单元比GPU多25倍;
3. 8位整数乘法和加法单元,激活单元等,转为神经网络定制;
4. 脉动阵列 MXU(systolic array)有着与传统CPU、GPU截然不同的架构, 动图描述计算流程,x往下走,是与w进行乘法运算;xw往右走,是参与加法运算;
5. 采用了复杂指令集CISC,实现了出色的性能功耗比(是GPU的1/30)
6. 极简设计:TPU就是一个单线程芯片,不需要考虑缓存、分支预测、多道处理等问题。