机器学习平台一期概要设计

本文介绍了企业构建机器学习平台的需求背景,强调平台化的必要性以降低开发和维护成本。平台设计包括前端交互、任务调度、执行环境、资源隔离、算子建模、框架整合、数据存储、日志监控等方面,旨在提供一个通用、易用的机器学习解决方案,促进公司级机器学习应用的普及。
摘要由CSDN通过智能技术生成




背景介绍



随着大数据技术的日趋成熟,很多互联网企业都积累了海量的数据资产。如何利用这些数据,充分发掘其价值逐渐成为各个公司亟待解决的新难题。其中机器学习已经被业界证明是十分有用的数据分析与挖掘手段。学术界对机器学习方向的研究已经持续数十年,很多算法已比较成熟。虽然不停有新的改进,但对企业而言不是最重要的。企业级应用最大的障碍在于如何将其平台化和围绕平台化所做的相关工作。因为如果每个使用机器学习的业务都走一整套完整的机器学习流程的话,开发和维护成本是相当高昂的。平台化就是将机器学习系统做成更加通用的、简单易用的平台,相关业务可以很容易接入该平台,从而利用机器学习的手段解决业务问题。



总体架构


公司本身大数据体系以Hadoop+Spark为主,不同业务方具有自己独立的账号和资源配额。目前绝大部分业务数据和日志数据均汇集到Hive数据仓库中。大数据平台已支持使用批量+实时的大数据处理方案满足相关数据处理需求。结合公司现状,机器学习平台应充分利用现有的任务调度方式、资源隔离体系、权限体系等,并尽量整合现有业界机器学习框架和资源,满足通用性机器学习任务的同时,做到一定的可扩展性和灵活性。其主要体现在容易整合相关机器学习框架;容易扩展用户自定义的算法实现;容易对多种硬件资源调度;容易在多种执行引擎间切换。






设计要点


❶ 前端交互
公司大数据平台统一前端入口为http://data.tmall.com。为了复用该工程相关功能,机器学习平台的前端交互/管理部分也会整合进来。具体入口放置在业务组功能菜单下面,下层子菜单包括[我的实验]、[数据管理]、[模型管理]。点击[我的实验]菜单后,在打开的页面中会列出归属于该业务组的实验列表,同时可以点击新建或者进入某个已有实验,这时将跳转到新打开的全新机器学习DAG编辑页面(DeepBlue AI Studio)。该页面的layout会和data.tmall.com的区分开,便于对该Editor页面样式等进行灵活控制。
  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值