AI芯片：寒武纪PuDianNao结构分析

最新推荐文章于 2024-06-08 21:54:18 发布

置顶 evolone

最新推荐文章于 2024-06-08 21:54:18 发布

阅读量5.4k

点赞数 1

分类专栏：人工神经网络 AI芯片

本文链接：https://blog.csdn.net/evolone/article/details/82594245

版权

AI芯片同时被 2 个专栏收录

16 篇文章 33 订阅

订阅专栏

人工神经网络

10 篇文章 5 订阅

订阅专栏

PuDianNao

之前介绍了寒武纪的DianNao和DaDianNao，其实内部处理逻辑可以说是一样的。
这种架构，只能适用特定的算法类型，比如深度学习（CNN，DNN，RNN）等。
但是，深度学习只是机器学习中的某一类，整个机器学习，有很多其他种类的算法，和深度学习的不太一样，甚至经常用到除法等计算类型。这些算法，目前的应用范围也很广。
为了加快常用机器学习算法的运算，寒武纪又设计出专门针对这些算法的处理器方案：PuDianNao.

PuDianNao，内部实现了7种常用的机器学习算法：k-means， k-nearest neighbors , naive bayes , support vector machine , linear regression , and DNN.
PuDianNao的结构如下图所示。
这里写图片描述
可以看出整体结构和DianNao比较像。
三个buffer存储数据，一个存储输出，2个存储输入。
核心是中间的运算逻辑。
PuDianNao的运算逻辑，可以看成由许多组相同的FU（Function Unit）并联组成。每个FU中包含一个MLU和一个ALU。
MLU结构如下图所示。
这里写图片描述
MLU
可以看出，MLU（Machine Learning Unit）的整体结构与DianNao的NFU比较像。
与NFU相比，PuDianNao在NFU-1的前面增加了2层逻辑Counter和Adder。

Counter用于累加，结果直接输出。Counter用于naive bayes 和 classification tree需要的。

Adder 用于大部分的机器学习算法，计算结果要么直接输出，要么作为下一级的输入。

Multiplier相当于DianNao的NFU-1.这里就不再赘述。

Adder tree相当于DianNao的NFU-2。

Acc，用于当计算的size大于硬件资源，比如需要累加30个输入，但是一次只能累加16个，所以需要连续累加2次，那么第一次的前16个的累加结果就暂时存在Acc中，等后面14个累加结果到了，再累加起来，形成30个输入的累加结果，直接输出或作为下一级的输入。这里与DianNao是有区别的。DianNao对这个问题的处理，选择将前16个输入的中间累加结果暂时存入NBout中，与剩下的14个输入一同完成累加，形成最终结果。二种方案的具体优劣，无从评判，但是个人感觉，PuDianNao增加了一级Acc，仅以很少的资源，比如一个累加器，几个控制信号，就能实现大size的计算，而DianNao的方案则需要将结果写入NBout，读写存储是很消耗功耗的，并且需要的布线资源也不少，信号传输需要时间，可能综合来看，个人觉得还是PuDianNao的方案更加高效。当然，这个判断并没有经过实际仿真验证，仅仅是一点直觉。当不得准。

Misc，相当于DianNao的NFU-3。

可以看出，MLU中的逻辑，只能执行乘法/加法/激活等操作，但是某些机器学习算法需要用到除法等不常用的计算类型。于是，必须增加对这些计算类型的支持。

ALU
PuDianNao选择在MLU之外，额外增加一个ALU（Arithmetic Logic Unit）.
ALU中包含一个加法器，一个乘法器，一个除法器，一个converter。
增加ALU也很合理，毕竟有些机器学习算法，需要特殊的计算，不得不准备专门的逻辑资源，以保证算法功能得到正确执行。

evolone

关注

1
点赞
踩
20

收藏

觉得还不错? 一键收藏
2
评论
AI芯片：寒武纪PuDianNao结构分析

三、PuDianNao 上面的DianNao和DaDianNao，其实内部处理逻辑可以说是一样的。这种架构，只能适用特定的算法类型，比如深度学习（CNN，DNN，RNN）等。但是，深度学习只是机器学习中的某一类，整个机器学习，有很多其他种类的算法，和深度学习的不太一样，甚至经常用到除法等计算类型。这些算法，目前的应用范围也很广。为了加快常用机器学习算法的运算，寒武纪又设计出专门针对这...
复制链接

扫一扫

专栏目录