智能实验室服务器,阿里巴巴机器智能实验室线下智能团队三年工作总结

不同业务往往使用的深度学习库多种多样,例如 Caffe, Tensorflow, Mxnet 等等;

不同业务使用的基础技术差异比较大,有分类识别、检测、分割、语音等等;

不同业务的数据安全级别差异比较大,有些可以公开,有些则需要完全物理隔离;

为了让更多的场景都可以用上我们的服务,获得 AI 的红利,我们提出了一套标准化的量化训练工具。

4f5524bbffcb4e2354db8d00fdbe5562.png

如上图所示,首先,我们的工具输入支持多种模型格式(TensorFlow,Caffe,Mxnet 等)。其次,我们提供了两种不同的模型量化方法,一种是支持不同任务(分类,检测,分割等)的数据依赖型压缩方法(Data Dependent Compression),适用于对数据安全要求不是很高,希望追求精度最大化的业务;另一种是数据非依赖压缩方法(Data Independent Compression),适用于对数据安全要求高,或者业务逻辑不是特别复杂的场景。

最后,在量化工作完成后,我们的工具会自动完成推理图的优化和模型加密,生成可以实际部署的模型文件。配合对应的推理加速库即可在端上运行。从易用性和数据安全性角度出发,我们推荐使用数据非依赖性的压缩方法。

目前,该套工具作为 MNN 推荐的量化工具广泛应用在阿里集团内多个线下业务场景中。

推理框架

实际中遇到的第二个问题就是真实推理速度问题,毕竟光有易用性是不够的,实打实的业务效果才是业务最想要的。这里我们使用阿里集团其他的兄弟团队提供的推理框架:

ARM 架构: 我们采用淘系技术团队研发的 MNN 作为推理框架;

GPU 架构: 我们采用机器智能技术团队研发的 falcon_conv 卷积库作为推理框架;

FPGA 架构:我们采用服务器研发团队研发的推理框架。

MNN

MNN 是一个轻量级的深度学习端侧推理引擎,核心解决深度神经网络模型在端侧推理运行问题,涵盖深度神经网络模型的优化、转换和推理。目前,MNN 已经在手淘、手猫、优酷、聚划算、UC、飞猪、千牛等 20 多个 App 中使用。选用常见的深度神经网络模型 MobileNet V2 和 SqueezeNet V1.1 作为测试样本:Android 方面,以小米 6 为例,MNN 在 CPU 和 GPU 上领先业界至少 30%;iOS 方面,以 iPhone 7 为例,MNN 在 CPU 和 GPU 上领先业界至少 15%。

FPGA

FPGA 上的推理框架由服务器研发团队完成。ResNet18 网络的推理时间只需要 0.174ms,目前已知业内最佳性能。在边缘计算产品 alibabaedge 上,基于硬件实现的高效算子,推理速度为边缘 GPU 的两倍。在后面,我们会结合产品形态整体的介绍这一方案。

GPU

falcon_conv 是机器智能技术团队开发的一款由 CUDA C++编写,在 Nvidia GPU 上运行的低精度卷积库,它接受 2 份低精度(INT8)张量作为输入,将卷积结果以 float/int32 数据输出,同时支持卷积后一些常规操作(scale,batchnorm,relu… )的合并。我们在单张 Tesla P4 GPU 上,对 falcon_conv 的性能与 Nvidia 官方计算库 Cudnn v7.1 做了比较,如图所示。几乎所有情况 falcon_conv 都优于 Cudnn,个别用例有高至 5 倍的提升,用例选自 RESNET 和 VGG 中耗时较多的卷积参数。

a19e59235b24d66ea3c9b60ad3cd0c3f.png

产品化

在业务支持过程中我们遇到的第三个问题是集成化,产品化问题。除了手机类场景外,其他线下业务均需要额外的硬件平台作为支撑。在早先时候,我们更多的是依赖第三方提供的硬件设备,这时候成本,稳定性,可扩展性成为制约线下项目拓展的几个主要问题。为了解决这些问题,我们根据以往的项目经验,对硬件设备进行归纳,沉淀出两类比较通用的线下产品化方案:智能盒子和一体化相机。每类产品均包含不同型号,以适应不同需求的场景。

e55495fac14e9f581db2690d53fd3f2d.png

智能盒子

我们提供的第一个方案为智能盒子方案。我们可以简单的把智能盒子当作一个适合于中小型场景的边缘服务器。盒子本身提供了多种接口,可以外接 usb/ip 相机,语音模块等传感器。直接本地部署,数据安全性高。我们针对业务特点提供了高低两个版本的智能盒子。其中,高端版本采用阿里巴巴自研的边缘计算产品 Alibaba Edge。除了完善的硬件设计和高效的推理框架,该盒子还包含完善的编译器支持,具有非常好的易用性。低端版本则为纯 ARM 的盒子。下面表格给出这两种盒子在性能,成本和适用场景的一个对比。

8fbdf8a6fd3b542422810cb608663630.png

在这里我们着重介绍一下阿里巴巴自研的边缘计算产品 Alibaba Edge,该产品除了具有高达 3TGFlops 的 AI 计算能力外,相对边缘 GPU 方案有大幅的价格优势,同时具有云端一体化部署功能,产品平台化,可快速上线,支持大规模运维。

67cf43f657ddd149dafcf745499298f1.png

96e28d628fa39bd4327e488620b055ed.png

在下面的表格中,我们对比了 LRSSD300+MobileNetV2 在不同硬件设备上的运行时间,希望可以给大家一个更直观的认识。

3236136542b7f93b3eecdf999dcdf936.png

一体化相机

我们提供的另一个集成方案为一体化相机。一体化相机特别适合云+端的部署模式:线下做相对比较简单的处理功能,云端则深度处理线下传回的信息,达到节约带宽,降低云成本的作用。同时,一体化相机具有方便部署,批量化生产后成本优势高的特点。目前一体化相机已经作为一个重要的载体形式被应用到我们所承接的对集团外合作项目中。

业务合作

在过去的 2 年间,我们尝试过多种不同的业务模式。在这里我们会列出主要几个不同形式的实例。

菜鸟未来园区

在菜鸟未来园区项目中,我们主要负责基础视觉类算法的输出,由菜鸟智慧园区团队同学负责业务算法和工程服务研发工作。经过半年的共同努力,我们先后完成了离岗睡岗检测,消防通道异常检测,车位占用检测,行人越界检测,入口计数检测等多个功能。

b9eb2b06f1314ab20ac4c6342924832c.png

在项目合作的过程中,我们发现计算单元成本高是制约算法大范围推广的一个主要原因。为了解决这个问题,我们联合了服务器研发团队,开发出一版定制化软硬件解决方案:该方案的硬件平台为我们在上文中提到的边缘计算产品 Alibaba Edge,同时配备特别定制的高效模型结构和自研的快速检测算法。新版方案在检测精度几乎无损的情况下,推理速度提升了 4-5 倍,成本相比边缘 GPU 方案下降了 1/2。

模型压缩加速

我们协助阿里集团不同业务同学完成对已有算法模型的量化瘦身与加速工作。例如:手机端 OCR 识别、手机端物体检测、手淘实人认证和刷脸登录/验证、菜鸟自提柜、阿里体育赛事刷脸入场、神州鹰人脸识别云相册等。

总结与展望

经过近两年的努力,机器智能技术实验室线下智能团队深耕线下智能领域。

算法方面:我们在低比特量化、稀疏化、软硬件协同设计、轻量级网络设计、端上目标检测等多个方面取得了一定的积累,多项指标达到了业内最佳水平。

工程方面:我们积累出了一套高灵活性,高数据安全性的训练工具 ; 并在合作伙伴的帮助下,在 ARM,FPGA,GPU 等多个平台下达到了业内最佳的推理性能。

产品化方面:我们与合作伙伴一起,研发出适合于不同业务场景的智能盒子与一体化相机。

最后,我们很幸运可以在集团内外多个不同形式的业务场景内打磨我们的技术。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值