人工智能技术随着以深度学习为核心算法的大力发展,目前已经在场景识别,语音识别等方面迅猛发展;
影响人工智能的三大要素:数据 算法 算力
其中算力 是实现算法的重要基础,人工智能芯片也处于这个时代的战略至高点。
目前人工智能 芯片分为三类:
a. AI加速芯片-(GPU,FPGA,DSP,ASIC等)
b. 类脑仿生芯片
c. 通用AI芯片
AI加速芯片
用于机器学习,特别是深度学习的网络训练和推理使用;是在现有芯片架构的基础上,对某类特定的算法和场景进行加速---考虑因素计算速度,功耗,成本等
设计思路:
-
利用已有的GPU,DSP, 众核处理器等芯片以异构计算的方式实现;2.
-
设计专用的ASIC芯片;
注:异构计算(Heterogeneous Computing)是指使用一种以上处理器的系统,如CPU+GPU;
1. GPU
gpu,是一种由大量核组成的大规模并行处理框架,用于处理图形显示的任务。
深度学习中神经网络训练过程计算量极大,而且数据和运算是可以并行的,GPU具备这种能力,并且为浮点矢量计算配备计算资源,两者有共同点。因此最先被考虑。
缺点: 不能支持复杂程序逻辑控制,需要CPU配合完成完整的计算系统;
2. DSP
DSP,大规模集成电路芯片。用于完成某种信号处理任务的处理器,针对滤波,矩阵运算,FFT等需要大量乘法加法运算的特点,DSP内部配有独立的乘法器加法器,提高运算速度。
因此,可以在dsp内部加入针对神经网络的加速部件,如矩阵乘和累加器/全连接的激活层和池化层等;
优点:高速/灵活/体积小/低功耗/可编程--适合用于终端设备,如手机/摄像头
3. 众核处理器
众核处理器是将多个处理器整合到单个芯片上。例:inter的 MIC架构,应用场景:高性能计算/工作站/数据中心
特点:核增多会增加芯片面积和功耗,但是性能会提高/增加运算部件和指令发射带宽会增加面积,也会拉长信号传输线路,增加延迟;
4. ASIC
asic,为专门目的设计的,面向用户特定需求的定制芯片;分为 全定制 和 半定制;
半定制 是使用库中标准逻辑单元,设计时从库中选择门电路/加法器/比较器/数据通路/存储器/IP核等;
目前大多公司采用的都是ASIC芯片进行深度学习加速,比如 google的 TPU , 寒武纪的AI芯片(与华为合作,NPU)也是;
类脑仿生芯片
区别于冯诺依曼架构,采用人脑神经元结构设计芯片来提升计算能力,以完全拟人化为目标,追求在芯片架构上不断逼近人脑,这类芯片成为类脑芯片。
神经元 接受刺激, 其细胞膜内外带电离子分布发生变化,形成电位差,电位差沿着神经细胞轴突/树突双向传导,形成脉冲电流。而当电信号传递到突触时,突触前神经元释放神经递质由突触后神经元接受神经递质产生兴奋,并向下传递作用于人体发生反应。
类脑芯片架构就是模拟人脑的神经突触传递结构,每个神经元的计算都是在本地进行的,且只负责自己的一小部分。
目前相对还处于概念阶段,已经有的比如: IBM TrueNorth, 浙大的 达尔文;
参考文档:https://www.ednchina.com/news/20180131AI.html
通用AI芯片
目前没有真正意义上的通用AI芯片,都是基于重构计算架构的软件定义芯片;
软件定义芯片,就是让芯片根据软件进行适应和调整,就是将软件通过不同的管道输送到硬件中来执行功能,使芯片能够实时的根据软件、产品、应用场景的需求改变架构和功能,实现更加灵活的芯片设计。
例: 清华大学微电子学院研究所设计的AI芯片 Thinker
参考论文:人工智能芯片发展的现状及趋势—尹首一