TrueNorth: Design and Tool Flow of a 65 mW 1 Million Neuron Programmable Neurosynaptic Chip

TrueNorth芯片采用4096个神经突触核心,100万神经元,65mW功耗,异步+同步架构设计。利用混合方法实现1ms神经元刷新,28nm制程可扩展,搭配CPE开发工具。重点展示了其低功耗、实时性和可扩展性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

译文
总结:100万神经元,65 mW,异步架构但是1ms刷新一次神经元状态。28nm制程,可扩展。同时配套了对应的软件开发工具。神经元的计算在1ms内完成。为了实现低功耗、异步和同步的需求,使用了混合异步、同步架构。神经元的分布和连接并不是像现在这样分层,而是像网络一样路由索引的,文末还给了实现后测试的功耗,功耗特别低,但是没看到模拟运行的话如何计算功耗。

摘录要点:

  1. 芯片由4096个神经突触核心组成,拼接成二维阵列,包含100万个神经元和2.56亿个突触。
  2. 芯片使用异步电路以及使同步电路成为事件驱动的技术,消除了耗电的全局时钟网络,并置存储器和计算器(最小化数据传输距离),并实现了稀疏内存访问模式。
  3. 为了达到4096个并行核的高性能,TrueNorth使用同步电路进行计算,并通过时分复用神经元计算来最小化核心面积,共享一个物理电路来计算256个神经元的状态。
  4. TrueNorth体系结构采用分层通信,本地通信采用高扇出纵横制,远程通信采用片上网络,全球系统同步以确保实时操作。我们将实时性定义为每毫秒对每个神经元进行一次评估,以1khz的同步信号表示。即1ms计算一次神经元状态。
  5. 通过在芯片内平铺核心、使用外围电路平铺芯片以及本地生成核心执行信号(消除全局时钟偏移挑战)来实现可伸缩性。
  6. 其他的芯片:SpiNNaker,Neurogrid,BrainScaleS,等
  7. 全局时钟以高转换率连续工作,以最小化时钟序列元素之间的时钟偏移,并且即使电路没有执行任何有用的任务,也会消耗动态功率。因此,如果用在一个依赖于活动的设计中,比如我们的神经突触体结构,这些时钟将浪费大量的能量。时钟选通是一种常用于缓解全局时钟的功耗缺点的技术。然而,时钟选通通常在一个非常粗糙的水平上执行,并且需要复杂的控制电路来确保所有电路块的正确操作。同步设计的另一个选择是在芯片上分配慢开关时钟,并使用锁相环(pll)将目标块上的慢时钟本地相乘,但是pll具有面积惩罚,并且不依赖于本机活动。
  8. 相反,异步电路通过使用请求/确认握手来传输数据,在没有时钟的情况下工作。异步电路的数据驱动特性允许电路在没有工作要做的情况下空闲而不进行切换活动。此外,异步电路能够在延迟持续和动态变化的情况下正确工作[21]。局部延迟变化的来源可能包括温度、电源电压波动、过程变化、噪声、辐射和其他瞬态现象。因此,异步设计风格还可以在较低的电源电压下实现正确的电路操作。
  9. 对于TrueNorth芯片,我们选择使用混合异步-同步方法。对于所有的通信和控制电路,我们选择了异步设计方式,而对于计算,我们选择了同步设计方式。由于TrueNorth内核是并行运行的,并且受脉冲生成/传输/传递(称为事件)的控制,因此自然要异步实现所有路由机制。每个TrueNorth核心内部的异步控制电路确保核心只有在需要整合突触输入和更新膜电位时才处于活动状态。因此,在我们的设计中,不需要高速全局时钟,并且通过握手协议进行通信。
  10. 对于计算电路,我们采用了同步设计方式,因为这种方法有助于在较小的硅面积内有效地实现复杂的神经元方程,使漏功率最小化。然而,同步电路块的时钟信号通过异步控制电路在每个核心中本地生成。这种方法仅在有计算要执行时才产生时钟脉冲,从而最小化时钟转换的次数并确保尽可能低的动态功耗。
  11. 整个芯片由一个64×64的神经突触体核心阵列和相关的外围逻辑组成。单个核心由调度程序块、令牌控制器块、核心SRAM、神经元块和路由器块组成。路由器与自己的核心以及东、西、北、南方向的四个相邻路由器进行通信,形成一个二维网状网络。每个spike数据包都带有一个相对的dx、目的核心的dy地址、一个目的轴突索引、一个要集成spike的目的地记号以及几个用于调试的标志。当峰值到达目的核心的路由器时,路由器将其传递给调度器.
  12. 我们测试了TrueNorth芯片的逻辑正确性,并对其性能和功耗进行了广泛的描述[1],[3]。当然,TrueNorth芯片的性能和效率随神经活动、路由网络连接和工作电压而变化。这里我们介绍TrueNorth芯片的一些重要技术特性。如第四节所述,基于TrueNorth芯片的事件驱动实现,我们能够在较低的电压下操作芯片,而不会遇到使用普通同步设计方法会遇到的时序冲突。总体而言,TrueNorth芯片的工作电压从1.05 V降至0.7 V,总功耗从低角的42 mW(0.70 V,0 Hz频率,0个突触/神经元)到高角的323 mW(1.05 V,200 Hz频率,256个突触/神经元)。作为一个例子,为了显示芯片的低功耗性能,我们选择了一个0.75V的工作点。在这个电源电压下,芯片的最大计算速度为58gsops,最大计算能量效率为400gsops/W。同时,在0.75V下运行一个典型的复杂递归神经网络,平均触发频率为20Hz,激活频率为128实时(1 kHz滴答声)时,TrueNorth芯片每神经元的突触数仅为65 mW,输出功率为46GSOPS/W。我们还证明了TrueNorth芯片的正常功能比实时(滴答声>1 kHz)更快。在我们的实验中,我们测量了高达21倍的实时操作,这取决于活动率、突触密度和电压水平.
  13. 我们设计了TrueNorth芯片,可扩展性是主要需求之一。就像芯片中的核心一样,芯片本身被设计成一个可伸缩的二维阵列,而不需要对底层路由算法进行任何修改,也不需要片外接口电路。这样我们就可以用许多相互连接的神经元来建立神经突触体核心的大网络。从逻辑的角度来看,神经元之间的通信是发生在同一个芯片上还是发生在多个芯片上没有区别。
  14. TrueNorth架构的应用程序是使用CPE开发的,CPE是一种面向对象的组合语言和开发环境,用于构建高效、模块化、可扩展、可重用和协作的神经突触软件[4]。我们之前演示了corelet的各种应用,包括说话人识别、音乐作曲家识别、数字识别、隐马尔可夫模型序列建模、碰撞避免和眼睛检测[5]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值