目录
0.AI芯片最强科普
云端AI芯片算力要求很高,目前已知单芯片算力最高的是华为昇腾910
在算力方面,昇腾910完全达到了设计规格,即:半精度(FP16)算力达到256 Tera-FLOPS,整数精度(INT8)算力达到512 Tera-OPS;重要的是,达到规格算力所需功耗仅310W,明显低于设计规格的350W。
昇腾 910 是目前为止计算密度最大的单芯片,最大功耗为 350W,半精度为(FP 16)256 Tera FLOPS,比英伟达 V100 的 125 Tera FLOPS 还要高出近 1 倍。若集齐 1024 个昇腾 910,将会出现迄今为止全球最大的 AI 计算集群,性能也将达到 256 个 P,不管多复杂的模型都能轻松训练。
1.比特大陆 第三代云端AI芯片性能提升6倍,BM1684
BM1682 芯片于 2018 年一季度量产发布,峰值算力达到 3TFlops,功耗为 30W,是比特大陆面向深度学习领域推出的第二代人工智能芯片,可脱离 X86 CPU 单独存在,支持客户二次开发,拥有单芯片八路H.264/H.265解码能力,支持视频图像后处理硬件加速,支持以太网、PCIE的多芯片互联,易于横向扩展;相比第一代拥有更高密度的特点,实际性能大幅提升。
比特大陆的第三代AI芯片BM1684是如何实现性能的6倍提升?根据官方的说法,BM1684内置张量计算模块TPU,该TPU模块包含64个NPU运算单元,每个NPU包括16个EU单元,总共有1024个EU运算单元。BM1684为视频处理做了特别优化,单芯片最高支持32路H264/H265的解码能力,每秒480帧JPEG/PNG图片编解码,960 fps@1080p视频解码能力,更内置了视频图像前后处理硬件加速模块。(相当于32路 1080P30 fps,但是里面只有两个4k60解码性能的WAVE511,正常只能16路1080p30??)
BM1684 基于台积电12nm工艺,在16w功耗下,BM1684 FP32精度算力达到2.2 TFlops,INT8算力可高达17.6Tops,在Winograd卷积加速下,INT8算力可提升至35.2Tops。
2.深度:32家公司决战云端AI芯片!
3.华为AI芯片到底有多强?
昇腾 910 是目前为止计算密度最大的单芯片,最大功耗为 350W,半精度为(FP 16)256 Tera FLOPS,比英伟达 V100 的 125 Tera FLOPS 还要高出近 1 倍。若集齐 1024 个昇腾 910,将会出现迄今为止全球最大的 AI 计算集群,性能也将达到 256 个 P,不管多复杂的模型都能轻松训练。
实测结果显示,昇腾 910 的半精度 (FP16)算力达到 256 Tera-FLOPS,整数精度(INT8) 算力达到 512 Tera-OPS,且芯片最大功耗仅为 310W,比此前设计规格的 350W 更低。
4.在手机终端
高通指出,骁龙855针对CPU、GPU、DSP都进行了AI计算优化,结合第四代AI引擎可以实现每秒超过7万亿次运算(7 TOPs)的AI算力
知乎作者麦克阿摄认为:从7万亿这个数字来看,骁龙855是横扫苹果的A12和华为麒麟980的(根据970的数据,算上980的增幅,可得麒麟980的算力为4.2TOPs
但是苹果A12芯片对外公布的AI算力只有5 TOPS。
以上知乎作者都认为,高通宣称的骁龙855可以达到7 TOPS 算力完全是用来吹牛逼的。
5.在边缘计算
华为昇腾 310。这个 SoC 属于昇腾的迷你系列,其在最大功耗仅 8w的情况下,整数精度的算力达到 16TFLOPS,同时 310 还集成了 16 个通道的高全高清视频解码器,是目前面向边缘计算产品最强算力的 AI 芯片,也可以用于数据中心的训练和推理。
6.车载场景
根据丰田公司的统计数据,实现L5级完全自动驾驶,至少需要12TOPS的推理算力 国内某车载芯片公司 最新的车载芯片算力在12TOPS,功耗12-15W左右. 16路1080P30 或者说4路4k30的处理能力。
功耗仅2W、算力达4Tops,地平线发布旭日二代边缘 AI 芯片
7.算力功耗比
华为ascend 910 :0.6W/T
地平线 旭日二代 :0.5W/T
bitMain的BM1684 :0.9W/T
各家都在努力降低到1W/T之内???