分布式机器学习平台
文章平均质量分 57
ChaosJ
毕业于北京邮电大学,现就职于Tencent 。
主要技术栈:Yarn、K8S、Tensorflow、Java、C++、Python、Spark、Mapreduce;
主要工作内容:hadoop 平台运维、机器学习平台、服务部署管理平台建设及运维;
展开
-
NUMA介绍
传统的多核方案采用的是SMP(Symmetric Multi-Processing)技术,即对称多处理器结构,如图1所示。在对称多处理器架构下,每个处理器的地位都是平等的,对内存的使用权限也相同。任何一个程序或进程、线程都可以分配到任何一个处理器上运行,在操作系统的支持下,可以达到非常好的负载均衡,让整个系统的性能、吞吐量有较大提升。但是,由于多个核使用相同的总线访问内存,随着核数的增长,总线将成为瓶颈,制约系统的扩展性和性能。图1对称多处理器SMP架构鲲鹏处理器支持NUMA(Non...转载 2021-11-17 20:18:22 · 1404 阅读 · 0 评论 -
Tensorflow分布式训练的调度方案
TensorFlow 本身支持分布式训练,但是构建分布式 TensorFlow 框架并非易事,也不是所有数据科学家和相关的工程师都具备所需的专业知识,或想要这样做——尤其是因为这项工作必须手动完成,缺少一个【调度框架】,调度Tensorflow进行分布式训练。工业界的大厂相继开源了很多方案。总的来说有两种方案【Tensorflow on Yarn】和【Tensorflow on K8S】和 【Te...原创 2020-03-10 23:08:14 · 1969 阅读 · 0 评论 -
【转载】基于 Kubeflow 的机器学习调度平台落地实战
作者:范德良 周佳煊 张振华机器学习,特别是深度学习,在蘑菇街这样的电商平台有大量实际业务的落地场景,比如搜索推荐、图像算法、交易风控反作弊等等。随着业务的快速发展,之前已有的基于 Yarn 的调度平台已经无法满足大规模机器学习的计算需求,因此我们在 2018 年和算法工程团队一起建设了基于 Kubeflow 和 Kubernetes 的分布式机器学习平台,并深入到业务层面进行分布式改...转载 2019-07-12 11:49:52 · 1258 阅读 · 0 评论