百度跨平台AI推理加速引擎--Anakin

一、前言

AI技术包含训练和推理两个阶段。推理阶段的性能好坏既关系到用户体验,又关系到企业的服务成本,甚至在一些极端应用上(比如无人驾驶)直接关系到个人生命财产安全。目前AI落地面临的挑战主要来源于两方面,一方面是AI算法的日新月异,带来了计算量的猛增,从AlexNet到AlphaGo,5年多的时间里计算量提升了30w倍。另一方面是底层硬件异构化的趋势愈发明显,近年来涌现出非常多优秀的架构来解决AI计算力问题。推理引擎的首要任务就是将性能优异且计算量庞大的深度学习框架快速部署到不同的硬件架构之上,并且能够保持性能相对高效。然而纵观开源社区和闭源解决方案,没有任何一款推理引擎可以同时满足开源、跨平台、高性能三个特性。因此,我们结合百度实际业务的需求、百度优秀工程师的研发能力以及行业合作伙伴的大力支持共同完成了百度自己的推理引擎Anakin v0.1.0。Anakin目前支持Intel-CPU、NVIDIA-GPU、AMD-GPU和ARM平台,后续将支持更多平台如寒武纪、比特大陆等。今天Anakin正式开源,期望能够借助社区的力量把Anakin打造的更加精美!

二、 Anakin架构
图 1  Anakin框架

Anakin框架的核心逻辑如图1所示,主要由Parser, Framework 和Saber组成。Parser是独立解析器,用于将不同训练框架生成的模型转化为统一的Anakin图描述。Framework是框架主体,使用C++实现,用于完成硬件无关的所有操作,比如构建网络、图融合、资源复用、计算调度等。Saber是一个高效的跨平台计算库,包括大量的汇编级优化代码,并支持众多国际行业合作伙伴的架构,如Intel-cpu,NV-gpu,AMD-gpu和ARM等,同时以后还将支持寒武纪MLU100和比特大陆BM1682这两款优秀的国产芯片。

三、 Anakin功能特性

Anakin v0.1.0具有开源、跨平台、高性能三个特性,它可以在不同硬件平台实现深度学习的高速推理功能。Anakin在NV、Intel、ARM和AMD-GPU架构上,体现了低功耗、高速预测的特点。

1.支持众多异构平台-跨平台

Anakin广泛的和各个硬件厂商合作,采用联合开发或者部分计算底层自行设计和开发的方式,为Anakin打造不同硬件平台的计算引擎。目前Anakin已经支持了多种硬件架构,如Intel-CPU、NVIDIA-GPU、AMD-GPU、ARM等,未来将会陆续支持比特大陆、寒武纪深度学习芯片等等不同硬件架构。我们希望Anakin可以为用户提供更灵活的底层选择,更方便简单的部署方式,并在不同底层硬件上达到最优性能。
  1. 高性能

Anakin在众多硬件平台都有很好的性能收益, 本文列举了一些实验对比测试数据,更详尽的数据请参见GitHub上的benchmark 数据。
 在NV架构上,我们选择Anakin v0.1.0、TensorRT v3.0.0、Tensorflow v1.7.0和Caffe v1.0.0进行了对比,具体的对比结果如图2所示。
图2 Public model on NV

测试平台Nvidia-P4信息:
• GPU Architecture NVIDIA Pascal™
• Single-Precision Performance 5.5 TFLOPS
• GPU Memory 8 GB

 在Intel架构上,我们选取Tensorflow-v1.8.0进行对比,具体的对比结果如图3所示。
图3 Anakin and Tensorflow on CPU

测试平台信息:
• i7-7700:Intel(R) Core(TM) i7-7700 CPU @ 3.60GHz
• 2650-v4:Intel(R) Xeon(R) CPU E5-2650 v4 @ 2.20GHz
• 2620-v4:Intel(R) Xeon(R) CPU E5-2620 v4 @ 2.10GHz

 在移动端ARM上,我们选取Tensorflow-lite进行对比,具体的对比结果如图4所示:
图4 Anakin and TFlite on ARM

测试平台信息:
• 荣耀v9(root): 处理器:麒麟960, 4 big cores in 2.36GHz, 4 little cores in 1.8GHz
• 高通835, 4 big cores in 2.36GHz, 4 little cores in 1.9GHz

 在AMD-GPU架构上,我们选取Anakin-v0.1.0进行横向对比,具体的对比结果如图5所示:
图5 MI8 and P4 on VGG16 model

测试平台信息:
• MI8: AMD Radeon Instinct MI8
single-Precision Performance 8.192 TFLOPS
GPU Memory 4 GB
• P4: GPU Architecture NVIDIA Pascal™
Single-Precision Performance 5.5 TFLOPS
GPU Memory 8 GB
图5中的折线图表示MI8和P4的执行效率的相对比例,具体的计算公式:
P4_Latency P4_TFLOPS / (MI8_Latency MI8_TFLOPS);
从图上的折线可知Anakin在MI8和P4上执行效率非常接近,在Thread_num大于2时Anakin_MI8效率更高。

  1. 汇编级的kernel优化
    Anakin追求的目标是极致,因此它提供了一套基于NVIDIA GPU SASS汇编级优化的库。SASS库支持多种(如sm61,sm50)NVIDA GPU 架构的汇编实现的conv 和 gemm 的核心计算。由于和NVIDIA 商业保密协议规定,目前只能开源编译好的SASS 库

四、Anakin值得一提的技术亮点
 轻量的dashboard
Anakin v0.1.0框架中的Parser提供了一个额外的小功能,可以让开发者查看Anakin优化前后的网络结构及参数,如图6和图7所示。这将有助于开发者方便的分析模型。同时,在优化后的Anakin执行图中会添加相应的优化标记,主要包括memory 复用、op融合、并行度分析、执行顺序分析、存储器使用以及同步标记等。例如,在图7中,对于标记了New标签的地方,在代码运行过程中,将只会对这些内容分配内存。这种处理方式将使得Anakin运行时所需的memory更少。
图6优化前的网络结构图

图7 优化后的网络结构图

 Anakin-lite 轻量的移动端版本
Anakin 还提供了在移动端运行的轻量版本anakin-lite, 我们借助上层图优化机制,帮助深度学习模型code自动生成,针对具体模型自动生成的可执行文件,并且结合针对ARM专门设计的一套轻量接口,合并编译生成模型的lite版本。
Anakin-lite 保持精简化,全底层库大小经过剪裁只有150K 左右,加上自动生成的深度学习模型模块,总大小在200K。模型参数不再采用protobuf而是精简的weights堆叠的方式,尽可能减小model尺寸。同时,anakin-lite依然保有上层anakin 框架的优化分析信息(比如存储复用等),最终可以做到内存消耗相对较小,模型尺寸相对精简。

 Anakin多层次的应用
第一个层次:Anakin可以是一个计算库;
第二个层次:Anakin可以是一个独立的推理引擎;
第三个层次:Anakin可以通过Anakin-rpc构建一个完整的推理服务。

五、Anakin的发展前景

Anakin v0.1.0具有开源、跨平台、高性能三个特性,它可以在不同硬件平台实现深度学习的高速推理功能。对于每个开发厂商,仅仅使用一套Anakin框架,就能在不同的硬件服务器上实现快速推理。
Anakin的终极目标是帮助实际业务模型快速迭代和上线,为深度学习模型产业化落地扫清障碍,从而让广大的工程师更专注算法设计,从繁重的优化和工程中解脱出来,进而推动深度学习的哪怕一点点的进步,这就是我们最大的愿望。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
回答: K-means算法的优点是简单易实现,计算效率高,适用于大规模数据集。K-means++算法在初始质心选择上进行了改进,能够选择更好的初始质心,提高算法的收敛速度,降低陷入局部最优解的风险。增量式K-means算法适用于大规模数据集,每次只处理一个数据点,不断更新质心,可以大大提高计算效率。\[1\]\[2\]然而,K-means算法也有一些缺点,例如对初始质心的选择敏感,容易陷入局部最优解,对噪声和异常值敏感,需要事先确定聚类数目。此外,K-means算法对数据的分布假设是各个簇的形状是球形的,对于非球形的簇效果可能不好。\[1\]\[3\] #### 引用[.reference_title] - *1* *2* [[机器学习]K-means算法详解:原理、优缺点、代码实现、变体及实际应用](https://blog.csdn.net/ShiinaMashiro0402/article/details/129980040)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^koosearch_v1,239^v3^insert_chatgpt"}} ] [.reference_item] - *3* [K-means算法的原理、优缺点](https://blog.csdn.net/Anakin6174/article/details/107723637)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^koosearch_v1,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值