基于Kubernetes的机器学习系统
基于Kubernetes搭建机器学习系统,将可以利用大型集群管理和微服务架构实现大规模、生产级的训练、研究和应用机器学习系统,Nvidia的 HGX超级机器学习平台 也基于该架构,具有强大的运算和IO能力。
1、基于Kubernetes的机器学习流程
机器学习系统包括训练框架、机器学习计算引擎、样本数据库、计算模型库、超级参数库、应用框架和移动应用(包括引擎、框架和参数库调优等)等部分。为了生产级的应用,还需要具有有配置参数及其版本化的管理,样本数据库、超级参数和环境配置参数往往存储在虚拟存储系统上(如NFS/Rook),以实现多个节点的并行处理访问所需。
2、基于Kubernetes的机器学习资源
本文将包含基于Kubernetes的机器学习系统相关参考资源,包括基于Ubuntu的Nvidia图形驱动驱动、cuDNN深度学习引擎、Nvidia Docker2、Nvidia Plugin for Kubernetes、Kubeflow、Spark ML等安装和配置方法。
- ML引擎与基础环境
- Ubuntu快速玩转机器学习,https://my.oschina.net/u/2306127/blog/1807648
- Kubernetes安装GPU支持插件,https://my.oschina.net/u/2306127/blog/1808304
- pytorch-operator on Kubernetes,https://my.oschina.net/u/2306127/blog/1811457
- 快速运行TensorFlow的6种方式,https://my.oschina.net/u/2306127/blog/1815183
- 分布式TensorFlow,https://my.oschina.net/u/2306127/blog/1815208
- Spark上的机器学习
- Spark上的深度学习流水线,https://my.oschina.net/u/2306127/blog/1811876
- Spark机器学习工具链-MLflow,https://my.oschina.net/u/2306127/blog/1825638
- MLflow 使用教程,https://my.oschina.net/u/2306127/blog/1825690
- Introducing Deep Learning Pipelines for Apache Spark,
- A Vision for Making Deep Learning Simple,
- KubeFlow的ML技术栈
- ksonnet 使用教程,https://my.oschina.net/u/2306127/blog/1808581
- Kubeflow 使用指南,https://my.oschina.net/u/2306127/blog/1808582
- Kubeflow 快速入门,https://my.oschina.net/u/2306127/blog/1807788
- Kubeflow-机器学习工作流框架,https://my.oschina.net/u/2306127/blog/1807785
- Kubernetes集成TensorFlow服务,https://my.oschina.net/u/2306127/blog/1811348
- 工作流程与应用
- 什么是地理空间智能(Geospatial AI),https://my.oschina.net/u/2306127/blog/1808092
- Land Cover Classification Using the Geo AI,https://my.oschina.net/u/2306127/blog/1802198
- Deep Learning Models on Kubernetes with GPUs,https://my.oschina.net/u/2306127/blog/1802177
- 使用TensorFlow和Kubernetes进行基于GPU的深度学习,https://my.oschina.net/u/2306127/blog/1606850
- Pachyderm 快速入门,https://my.oschina.net/u/2306127/blog/1808579
3、Kubenrnetes集群安装参考
- kubeadm安装Kubernetes实践记录,https://my.oschina.net/u/2306127/blog/1628082
- Kubernetes加入新节点,经验总结,https://my.oschina.net/u/2306127/blog/1816989
- Kubernetes v1.10.x HA 全手动安装教程,https://my.oschina.net/u/2306127/blog/1818008
- 使用kubeadm创建Kubernetes集群,https://my.oschina.net/u/2306127/blog/1627651
- Kubernetes部署与应用解决方案大全,https://my.oschina.net/u/2306127/blog/1627166
4、Kubenrnetes网络部署参考
- calico在docker上的部署及验证,https://my.oschina.net/u/2306127/blog/1818349
- 容器SDN技术与微服务架构实践,https://my.oschina.net/u/2306127/blog/780337
- 基于Kubeadm的Flannel分析,https://my.oschina.net/u/2306127/blog/1817993
- ...
5、机器学习前端应用方向
在机器学习平台中,后端主要用于训练和大型分析、在线服务,而前端通过低功耗的专用芯片实现模型的应用,如自动驾驶、图像分类、视频理解、人脸识别、语音合成、视觉定位等等,有基于ASIC、FPGA、DSP、ARM的专用芯片和多种方案,体积和功耗都是比较低的,可以在包括手机上的移动设备上运行。
- 本文地址 https://my.oschina.net/u/2306127/blog/1822919.......