重点论文:
寒武纪从2014年开始:
(1)DianNao: A Small-Footprint High-Throughput Accelerator for Ubiquitous Machine-Learning
(2)DaDianNao: A Machine-Learning Supercomputer
(3)PuDianNao: A Polyvalent Machine Learning Accelerator
(4)ShiDianNao: Shifting Vision Processing Closer to the Sensor
(5)Cambricon-X: An Accelerator for Sparse Neural Networks
论文侧重点:
(1)DianNao:可以看作是硬件设计的基础
(2)DaDianNao:面向服务器端的高性能计算架构
(3) ShiDianNao:面向边缘端设备应用场景的
(4) PuDianNao:面向更加泛化的机器学习算法的
(5)combricon:面向更加广泛的机器学习加速器的指令集架构。
寒武纪的DianNao系列芯片构架也采用了流式处理的乘加树(DianNao[2]、DaDianNao[3]、PuDianNao[4])和类脉动阵列的结构(ShiDianNao[5])。为了兼容小规模的矩阵运算并保持较高的利用率,同时更好的支持并发的多任务,DaDianNao和PuDianNao降低了计算粒度,采用了双层细分的运算架构,即在顶层的PE阵