未来已来,7000字详解机器学习平台

首先,本文所指机器学习平台是:为提升机器学习效率,降低机器学习应用门槛,提供从数据导入、模型训练到模型部署、模型监控功能的一站式机器学习平台。为避免概念混乱,特别说明TensorFlow、PyTorch、Caffe、CNTK、MXNet、Spark等在本文中不是指机器学习平台,而是归为深度学习、机器学习计算框架。

 

那么机器学习平台离我们有多远呢?目前国内外各大互联网公司还有一些人工智能创业公司已经建立了机器学习平台并不断优化,有些在建立机器学习平台的路上或者规划中。其中,第四范式的Hypercycle、阿里的PAI、百度的BML、腾讯的智能钛机器学习平台、华为的ModelArts、美林数据的TempoAI、九章云极的APS、袋鼠云的AIworks、数澜科技的DeepWave等都是国内可以对外提供服务的机器学习平台;另外,像汽车之家【1】、微博【2】、爱奇艺【3】、VIVO【4】、美团【5】、滴滴【6】等都已建立或正在建立对本公司内部服务的机器学习平台,并在网络上公开自身构建机器学习平台的方案和思路。因此,目前国内公司离机器学习平台并不遥远,若采办外部机器学习平台,很快即可使用;若打算自建机器学习平台,在拥有一定人才、硬件资源的情况下,1年左右的时间可以完成2-3个版本的迭代,获得一个较为稳定可用的机器学习平台。

 

为什么需要机器学习平台呢?在没有机器学习平台的情况下,主要可能遇到以下问题或困难:

1 烟囱式开发,导致不同团队重复造轮子,各个团队独自负责自身机器学习框架、环境搭建、框架版本适配、特征工程、模型训练、模型在线预测,此模式在业务早期可以灵活适应业务需求,但是在团队较多、业务稳定后会造成算法迭代效率低下,算法工程师精力重复消耗在并不特别擅长的工程事务;

2 计算资源未充分利用,计算资源切割属于各自团队,导致有些计算资源闲置待用,而有些团队又等着计算资源来进行训练,导致公司硬件成本攀升;

3 算法团队协作困难,不同算法团队甚至同一团队的不同人员,在数据共享、模型共享方面均存在一定困难,人员的离职、调动又极可能导致之前的模型资产、经验累积丢失;

4 机器学习应用范围受到限制,很多公司或很多业务可能并不是以算法为核心打造业务,但是通过机器学习可以赋能或优化业务,但这样的公司或业务条线往往没有能力配备机器学习团队,导致无法在业务中应用机器学习或者需要排队等待算法团队档期。

 

 一个机器学习平台应当具备哪些能力呢?为解决上述问题或困难,一个机器学习平台应当具备以下能力,实际上国内外各机器学习平台基本上均具备以下能力:

1 具备从数据导入、数据处理、模型构建、模型训练、模型部署、模型更新到模型监控的机器学习全流程的功能模块,支持各类主流机器学习计算框架,所有团队均在同一个平台上完成这些工作,让算法人员尽可能从工程事务中解放出来,专注于特征选择、模型构建优化等方面的工作;

2 具备统一的资源调度能力,能够弹性调度平台的CPU、GPU、TPU计算资源,提升计算资源利用率,降低企业硬件成本;

3 具备团队协作共享能力,方便团队之间或团队成员之间共享数据、共享模型,提供模型沉淀路径,经过验证或评审的模型可以成为平台的预置模型供其他人便捷调用;

4 具备低门槛或零门槛建模能力,业务工程师可以直接或简单培训后使用机器学习平台,因此平台除提供Notebook建模方式外,还提供拖拉拽可视化建模功能,业务工程师配置模型参数或直接采用自动模型参数的情况下即可构建模型并提交训练。更进一步,平台会提供自动机器学习(AutoML)功能,用户只需提供数据即可一键建模,将建模门槛进一步降低,不过目前AutoML仍然处在快速发展中,还有很多地方需要进一步完善,不过因为其广阔的应用前景,一旦AutoML获得重大突破,不但业务工程师将获得快速建模能力,也可以辅助算法工程师进行建模,提升建模效率,因此国内外技术实力强劲的公司均将AutoML作为机器学习平台的标配,目前也出现了一批专注AutoML的创业公司。

 

按照以上机器学习平台的能力要求,以下是一个通用的机器学习平台产品功能架构图,目前而言各公司机器学习平台基本具备这些功能,在少数地方有差异而已。各功能详细说明如下:

1 硬件资源,一般至少具备CPU和GPU硬件资源,TPU视情况配备;

2 资源调度,目前主流趋势是基于Kubernetes做资源调度策略【7】,支持自定义调度策略配置,也有基于Yarn做资源调度策略,但是Yarn对GPU的调度存在稳定性风险;

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值