深度解密京东登月平台基础架构

近日,京东发布登月机器学习平台,并在京东云上线,正式对外提供人工智能服务。登月机器学习平台的上线代表着京东人工智能技术从应用级服务到基础算法的全面对外开放,实践着京东RaaS(零售即服务)的发展策略。今天我们邀请了AI与大数据部的工程师为大家深度解密京东登月平台基础架构。

从2016年9月开始,京东AI基础平台部基于Kubernetes和Docker构建机器学习平台的底层架构,后续逐步完善和优化了网络、GPU管理、存储、日志、监控、权限管理等功能。目前集群管理的容器实例数量有5K+,至今已上线运行了20多个AI前向服务(50多个API),同时为后向训练提供支持,在618大促中表现高效稳定。

架构

登月平台的基础架构以Docker+Kubernetes为中心,底层基础设施包括CPU、GPU、FPGA计算资源,IB、OPA高速互联网络以及多样化的文件系统,之上是机器学习框架和算法库,最上层是业务应用。管理中心包括权限管理、任务管理、流程管理、监控中心、日志中心。

平台整体设计思想是Kubernetes调度一切,应具有以下特性(为了方便起见所有的inference类型的应用我们称为App,所有training类型的应用我们称为Job):

  • 高可用、负载均衡。大量的inference App运行在容器中,需要保证App能够稳定高效的对外提供服务。

  • 应用打包与隔离。研究人员、开发人员将自己的代码打包成image,方便的进行CI/CD,透明的将自己的App运行于平台中。

  • 自动扩容/缩容,training/inference用同一批机器调度。白天有许多活跃的用户,平台应该扩展更多inference App,而到了晚上,应该将更多的资源分配给training Job。

  • 作为大数据调度平台。平台不仅可以原生的调度Tensorflow/Caffe/XGBoost/MXNet等机器学习、深度学习工具包,也应该将Hadoop/Spark系列的大数据生态系统调度在Kubernetes中。

  • 支持丰富的硬件资源类型。根据不同的App,Job类型,应该使用不同的硬件资源以提高加速比,平台不仅需要支持CPU、GPU,还应该支持FPGA,InfiniBand,OPA等专用高速计算资源。

  • 最大化利用整个集群资源。显而易见,对于平台来说已经不再区分是inference App还是training Job,所有的计算资源都统一在一个大的资源池中。

  • 推行数据隔离架构,保证数据安全。通过网络优势将数据和计算进行分离,提供更高级别的数据access权限。

  • 多租户安全保证。平台接入公有云,需要支持multi-tenancy的架构,不同的用户共享计算资源的池子,但是彼此在网络级别、文件系统级别、Linux内核级别都相互隔离。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值