AI芯片科普/MAC(Multiplier and Accumulation)是乘累加器

本文链接：https://blog.csdn.net/cy413026/article/details/102931412

0.AI芯片最强科普

1.比特大陆第三代云端AI芯片性能提升6倍，BM1684

0.AI芯片最强科普

云端AI芯片算力要求很高，目前已知单芯片算力最高的是华为昇腾910

在算力方面，昇腾910完全达到了设计规格，即：半精度（FP16）算力达到256 Tera-FLOPS，整数精度（INT8）算力达到512 Tera-OPS；重要的是，达到规格算力所需功耗仅310W，明显低于设计规格的350W。

昇腾 910 是目前为止计算密度最大的单芯片，最大功耗为 350W，半精度为（FP 16）256 Tera FLOPS，比英伟达 V100 的 125 Tera FLOPS 还要高出近 1 倍。若集齐 1024 个昇腾 910，将会出现迄今为止全球最大的 AI 计算集群，性能也将达到 256 个 P，不管多复杂的模型都能轻松训练。

1.比特大陆第三代云端AI芯片性能提升6倍，BM1684

BM1682 芯片于 2018 年一季度量产发布，峰值算力达到 3TFlops，功耗为 30W，是比特大陆面向深度学习领域推出的第二代人工智能芯片，可脱离 X86 CPU 单独存在，支持客户二次开发，拥有单芯片八路H.264/H.265解码能力，支持视频图像后处理硬件加速，支持以太网、PCIE的多芯片互联，易于横向扩展；相比第一代拥有更高密度的特点，实际性能大幅提升。

比特大陆的第三代AI芯片BM1684是如何实现性能的6倍提升？根据官方的说法，BM1684内置张量计算模块TPU，该TPU模块包含64个NPU运算单元，每个NPU包括16个EU单元，总共有1024个EU运算单元。BM1684为视频处理做了特别优化，单芯片最高支持32路H264/H265的解码能力，每秒480帧JPEG/PNG图片编解码，960 fps@1080p视频解码能力，更内置了视频图像前后处理硬件加速模块。(相当于32路 1080P30 fps，但是里面只有两个4k60解码性能的WAVE511，正常只能16路1080p30??)

BM1684 基于台积电12nm工艺，在16w功耗下，BM1684 FP32精度算力达到2.2 TFlops，INT8算力可高达17.6Tops，在Winograd卷积加速下，INT8算力可提升至35.2Tops。