![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
计算机体系结构学习笔记
文章平均质量分 81
热心网友_1
这个作者很懒,什么都没留下…
展开
-
7.4 DSA设计_TPU
尽管I/O总线具有相对较小的内存带宽,这限制了TPU的充分利用。但TPU实现了在运行DNN推理应用程序时,其性价比比GPU提高十倍的目标。此外,重新设计的TPU,采用与GPU相同的内存技术时,计算速度将快三倍。解释TPU成功设计遵循了以下指导方针:1.使用专用存储器来最小化数据移动的距离。TPU具有24 MiB统一缓冲区,该缓冲区保存MLP和LSTM的中间矩阵和向量以及CNN的特征图。它针对一次256字节的访问进行了优化。原创 2023-05-03 15:19:54 · 239 阅读 · 1 评论 -
计算机体系结构学习笔记--指令集8.1
C)-(a*D)可以通过以任何顺序进行乘法运算来计算,然而,在堆栈计算机上,硬件必须只按一个顺序计算表达式,因为操作数隐藏在堆栈上,并且可能需要多次加载一个操作数。当变量被分配给寄存器时,内存流量减少,程序速度加快(因为寄存器比内存快),代码密度提高(因为寄存器可以用比内存位置更少的比特来命名)。个人移动设备和嵌入式应用程序重视成本和能量,因此代码大小很重要,因为更少的内存既便宜又低能量,并且一些类别的指令(如浮点)可以是可选的,以降低芯片成本,并且可以使用专为节省内存空间而设计的指令集的压缩版本。原创 2023-04-09 22:16:49 · 178 阅读 · 0 评论