Large Scale Machine Learning--An Engineering Perspective--1. 大规模机器学习平台的构成


机器学习/数据挖掘在各种业务场景中的应用已经非常之多了,在线广告/搜索/商品推荐/风险建模/图像处理/语音识别/机器翻译都是机器学习成功应用的典型case。

有效应用机器学习解决业务问题,在我看来依赖于三个维度:
1. 对Domain相关的business knowledge的深入理解[1]
2. 对机器学习技能知识本身的深入理解
3. 高效的工具平台[2][3][4][5][6]
这三个维度我是刻意按照心目中的优先级从高到低排序出来的。

也就是说,当我们讨论从无到有build up一个large-scale ML platform的时候,应该先问问自己,我们是不是真得需要这个东西?
因为在我看来,对业务的深入理解 >> 机器学习技能知识的深度理解 >> 工具平台。有好的工具平台,可以让我们事倍功半,提升效率。但是对业务和ML知识的深入理解,可以让我们在解决方案的设计空间里有效地进行妥协,在很多场景下用看起来不那么graceful的工具,获得相距不多的产出[7]。所以说,当我们想要build up一个large-scale ML platform的时候,应该先问一下自己,我们真得需要这个东西吗?本质上,所有健康的公司都是result-driven,要从市场上获得相应的回报。脱离业务需要,对技术大平台的追求,会带来灾难性的后果[8]。当我们真得发现large-scale ML platoform的缺乏影响到了业务的迭代效率以后,我们还应该问另一个问题,是不是一定要从头build up这样一个platform?现有的工具平台(基于开源系统搭建private platform,以及基于Cloud的public 机器学习平台[9][10])是不是已经能够满足业务上对large-scale ML的需求?

对这些问题都作完审慎的思考之后,我们才应该回到原始问题上面——从无到有build up一个large-scale ML platform具体需要做什么?

个人理解,一个五脏俱全的large-scale ML platform应该包括这样几个组件:
1.  Mandatory部分
1.1. 算法逻辑模块
1.1.1. 有监督学习
1.1.1.1. 线性模型
1.1.1.2. 非线性模型
1.1.2. 无监督学习
1.1.2.1. 聚类算法
1.1.2.2. 主题模型
1.2. platform交互模块
1.2.1. 用于提交算法任务的client
1.2.2. 用于tracking任务进度的portal
1.2.3. 数据交互
1.2.4. 资源调度模块
  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值