中科寒武纪 AI 芯片弯道超车:NPU 为深度学习而 生、指令集是产业根本

人工智能领域深度学习兴起;神经网络规模快速增长,对计算能力需求提升。深度学习技术评为 2013 年十大突破性技术之首,带动了人工智能的再次兴起;深度学习凭借其更加优秀的拟合能力, 在语音识别、图像处理等领域取得诸多本质性的突破。近些年,随着深度学习的神经网络规模的快 速增长,相关 AI 领域的识别准确率有了大幅提升,但是随之而来的是:整体深度学习架构对计算 能力的需求有了爆发式的增长。

传统计算架构在神经网络处理方面有所欠缺。目前深度学习的基本操作是神经元和突触的处理,传 统的处理器指令集(包括 x86 和 ARM 等)是为了进行通用计算发展起来的,其基本操作为算术操 作(加减乘除)和逻辑操作(与或非),往往需要数百甚至上千条指令才能完成一个神经元的处理, 深度学习的处理效率不高。

中科寒武纪 NPU 专为神经网络处理定制,提供高性能功耗比解决方案,赋能移动端 AI 芯片。中 科寒武纪是全球智能芯片领域的先行者,宗旨是打造各类智能云服务器、智能终端以及智能机器人 的核心处理器芯片。2016 年推出的寒武纪 1A 处理器(Cambricon-1A)是世界首款商用深度学习 专用处理器,面向智能手机、安防监控、可穿戴设备、无人机和智能驾驶等各类终端设备,在运行 主流智能算法时性能功耗比全面超越 CPU 和 GPU,与特斯拉增强型自动辅助驾驶、IBM Watson 等国内外新兴信息技术的杰出代表同时入选第三届世界互联网大会(乌镇)评选的十五项“世界互

联网领先科技成果”。中科寒武纪 NPU 专为神经网络定制:

1)、优化芯片架构,提升芯片对于神经网络的处理效率。传统架构存储和处理是分离的,分别由 存储器和运算器来实现(X86 处理器和英伟达 GPU);而神经网络中存储和处理是一体化的,都 是通过突触权重来体现;当传统架构计算神经网络时将受到存储和处理分离式结构的制约,因而影 响效率。寒武纪策略则通过“片上存储”的方式尽量减少访存次数,提升性能。

6:通过改变芯片架构、优化片上存储层次,降低访存次数、提升性能

 

 

资料来源:中科寒武纪、中科院、东方证券研究所

 

2)、基于优化的芯片架构,针对性的提出神经网络计算处理的指令集。传统的计算架构并非是专 门针对神经网络架构计算而设计;而寒武纪 NPU 芯片设计能够对于任意规模 DNN、CNN、MLP、 SOM 等多种神经网络算法能够实现通用性的支撑,同时对神经元和突触数据在芯片上的传输提供 了一系列专门的支持;实现一条指令即可完成一组神经元的处理。

 

 

 

 

  • 5
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

redelego@cloud

XXXXXXXXXXXXXXX

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值