Kneron发布新一代终端人工智能处理器NPU IP-KDP Series

-运算效能大幅提升3倍,最高可达5.8 TOPS

上海2018年9月14日电 /美通社/ -- 专注于终端人工智能解决方案的新创公司耐能 (Kneron) 今日参与在上海举行的 Arm 人工智能开发者全球峰会,以可重构算法在AI芯片中的应用为主题发表演说,会中同时发布 Kneron 新一代终端人工智能处理器系列 NPU IP - KDP Series。Kneron 第二代 NPU IP 包括三大产品,分别为超低功耗版 KDP 320、标准版 KDP 520、以及高效能版 KDP 720。全系列产品的功耗低于0.5瓦(W),采用新的架构设计让运算更具弹性,整体效能相较于上一代产品大幅提升达3倍,运算能力 (peak throughput) 最高可达5.8 TOPS(每秒万亿次运算)注一)

Kneron 创始人兼 CEO 刘峻诚表示:Kneron 推出为终端装置所设计的人工智能处理器 NPU IP 后,其超低功耗的优势受到市场高度关注。Kneron 新一代 NPU 产品在诸多方面取得显著的突破,基于第一代产品的优势,我们改善数据运算流程、提升整体运算效能与储存资源使用率,同时针对不同的神经网络模型进行优化,让 NPU 可以更广泛地应用在各种终端装置,并满足更复杂的运算需求。

Kneron NPU IP 可应用在智能手机、智能家居、智能安防、以及各种物联网设备上,让终端装置在离线环境下就能运行各种神经网络。Kneron 第二代 NPU IP 采用新的交错式运算架构 (Interleaving computation architecture) 设计,缩短运算流程和提升效率。深度压缩 (Deep compression) 技术让压缩功能从模型层级深入至数据和参数层级,使压缩率再提升。动态储存资源分配功能提升储存资源利用率,却不影响运算效能。此外,支持更广泛的卷积神经网络 (Convolutional Neural Networks, CNN) 模型,并针对各种 CNN 模型分别进行优化,在不同神经网络模型下,可提升1.5倍3倍不等的效能。

第二代 NPU IP-KDP Series 重点技术说明:

交错式运算架构设计:透过交错式架构,让神经网络架构中主要的卷积 (convolution) 与池化 (pooling) 运算可平行进行,以提升整体运算效率。在新的卷积层中,还可同时支持 8bits 与 16bits 的定点运算 (fixed point),让运算更有弹性。

深度压缩技术:不仅能执行模型压缩,还能对运行中的数据和参数 (coefficient) 进行压缩,减少内存使用。模型大小可压缩至50分之一以下,准确度的影响率小于1%。

动态储存资源分配:让共享内存 (shared memory) 和运作内存 (operating memory) 之间可以进行更有效的资源分配,提升储存资源利用率的同时却不影响运算效能。

CNN模型支持优化:支持更广泛的 CNN 模型,包括 Vgg16、Resnet、GoogleNet、YOLO、Tiny YOLO、Lenet、MobileNet、Densenet 等,而且针对不同 CNN 模型分别进行优化,在不同神经网络模型下,相较上一代产品提升约1.5倍至3倍效能。

注一:运算效能会因纳米制程不同而异。5.8 TOPS 为 KDP720 在 28 纳米制程、600 MHz、8bit fixed points 下的效能表现,预测运行功耗在 300-500mW(估计每瓦效能为13.17 TOPS/W) 。

设计一款新的神经网络处理器NPU)是一个复杂而综合的工作,涉及到以下几个方面: 1. 硬件架构设计:首先,需要确定NPU的整体硬件架构。这包括确定处理单元数量、内存和缓存结构、指令集和寄存器等。硬件架构需要考虑神经网络计算的需求,并优化性能和能效。 2. 算法和指令集设计:针对神经网络计算任务,需要设计适合NPU的算法和指令集。这包括支持常见的神经网络层类型、激活函数和优化算法等。指令集设计需要考虑到性能、能效和可编程性的平衡。 3. 数据流和并行计算设计:神经网络计算通常是高度并行的,因此NPU需要设计支持高效并行计算的数据流和处理单元架构。这涉及到数据传输、并行计算、流水线设计等方面。 4. 存储和内存管理:NPU需要设计合适的存储和内存管理方案,以支持神经网络模型的存储和访问。这包括权重、激活值和中间结果的存储、数据重用和缓存管理等。 5. 芯片设计和布局:一旦确定了NPU的整体架构,需要进行芯片级的设计和布局。这包括将硬件设计转化为实际的芯片电路,并进行电路优化、布线和物理设计等。 6. 验证和仿真:在完成芯片设计后,需要进行验证和仿真,以确保NPU的正确性和性能。这涉及到功能验证、性能评估和电源噪声分析等方面。 7. 驱动程序和软件支持:最后,还需要为NPU开发驱动程序和软件支持,以便与上层应用和框架进行交互。 以上只是设计一款新的神经网络处理器的一些基本工作,实际的设计过程可能还涉及到其他更多的方面。这是一个复杂且需要专业知识和经验的任务,通常需要一个专业的团队来完成。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值