资源管理与任务调度
Shao Kaiyang
BIT && BUAA,云计算相关
展开
-
集群资源管理与任务调度系统综述
0. 集群资源管理与任务调度系统出现的背景(1)出现背景信息技术快速发展,各行各业都慢慢于互联网进行深度融合,即所谓的“互联网+”。为了提供更好的服务以吸引更多的消费者进行更多维度的消费,各个互联网公司针对不同的场景进行深度拓展,而这些业务的进行全部需要对海量数据进行大规模处理。传统的单机模式已经很难满足公司和企业的发展需求,因此各个公司开始搭建自己的数据中心,但是独立搭建的数据中心往往存在一...原创 2019-05-03 23:49:49 · 4979 阅读 · 2 评论 -
阿里规模化混部技术揭秘,数据中心日均 CPU 利用率 45%
文章来自 阿里技术 公众号阿里妹导读:混部技术在业界还尚属于较少研究的领域,该技术只有在资源及成本的体量达到一定规模时,才会显现出其可观的技术红利。今天,阿里系统软件部技术专家蒋玲从阿里巴巴混部探索简介、混部方案及架构以及混部核心技术等几个方面带大家全面了解混部技术,希望对你有所启发。作者简介:蒋玲(玲昕),阿里系统软件部技术专家、大促自动化备战产品负责人、电商规模化混部项目负责人。...转载 2019-05-07 16:30:27 · 1651 阅读 · 0 评论 -
关于资源管理与任务调度系统不得不知的基础知识和经典论文
0. 前言云计算的快速发展是目前的一个热点,同时也是推动互联网发展的下一个增长点。而要想在保证为用户提供高质量的云上服务的同时又能够尽可能的提高集群的资源利用率降低成本,就需要依靠资源管理与调度系统。对于云计算平台来说,其成本主要有:每年购买服务器的费用,这个费用是相当大的;数据中心正常运行需要的电力成本,服务器通常一直运行,非常消耗电力资源;云平台正常运行的运维成本;提高和扩展云平台的服务能...原创 2019-05-09 17:13:13 · 676 阅读 · 0 评论 -
谷歌超大规模集群管理系统Borg详细解读
0. 前言文本根据谷歌15年发表的论文整理得到,论文连接:http://research.google.com/pubs/pub43438.htmlBorg是谷歌内部的大规模集群管理系统,在谷歌内部经历数十年的打磨,应该是与谷歌三驾马车(MR,GFS,BigTable)的同时代产物,直到今天才发表论文公布其中的细节。谷歌其实很早就宣称可以在同一个集群中同时调度在线任务和离线任务,足可见...原创 2019-05-07 15:51:44 · 7334 阅读 · 0 评论 -
腾讯云VStation架构总结
0. 前言在IDC最新(截止到2019年2月)的数据报告中显示,目前在公有云市场中,腾讯云占据国内公有云市场份额的11%,位列第二紧随阿里云之后。腾讯作为互联网巨头,在2018年底的时候成立云与智能事业群足见其在云计算方向上的布局。本篇主要根据腾讯发布的文章对其VStation系统进行总结1. 腾讯云调度面临的挑战异构性与调度质量;]宿主机的异构性趋势;虚拟机的多样性需求;调度过程...原创 2019-05-08 19:58:03 · 5772 阅读 · 0 评论 -
YARN内部模块详细解读—令人震惊的Java工程
0. 前言YARN的基本内容我已经在下面这篇文章中进行了较为详细的说明。YARN简介对于一般的使用者来说已经足够了,但是对于资源管理和调度系统的研究人员和研发人员来说,了解其内部实现时必须的。认真看过YARN源码的人会被其内部的设计思想所震惊,对于并发的处理可以说做到了极致,服务、事件、状态机、异步处理器等等,下面将针对YARN中包含的模块进行较为详细的说明,旨在理清楚其中的关系,为大家阅...原创 2019-05-08 19:47:38 · 700 阅读 · 0 评论 -
YARN简介—目前使用最为广泛的资源管理系统
0. 前言本文只对YARN进行简要总结,后续会进行详细的阐明,因为YARN内部的实现比较复杂,不是几篇文章可以讲清楚的,涉及到:服务、状态机、远程调用、各种RPC协议、各种异步处理、事件机制等。想详细了解的可以查阅2013年其发表的论文。通过本文你可以了解YARN出现的背景,基本组成部分,以及一个较为完整的调度过程。1. 介绍名称:YARN(Yet Another Resource ...原创 2019-05-06 01:05:30 · 708 阅读 · 0 评论 -
DRF主资源公平调度策略—经典调度策略
0. 前言主资源公平调度策略是目前调度系统中被广泛使用的一种调度策略,已经被证明在提高集群资源利用率和任务完成质量方面有很重要的影响,其是公平调度策略的一种,也是最大最小算法的一个具体体现。Mesos和YARN中都用到了该策略。想要获知该算法的详细论证过程可以搜索 Dominant Resource Fair Scheduling最大最小分配算法:这个比较好理解,就是最大化目前分配到最小...原创 2019-05-06 00:37:48 · 2378 阅读 · 2 评论 -
集群资源管理与调度基础理论综述
0. 前言本文总结学习自《大数据日知录-架构与算法那》对于大型互联网公司来说,如何充分挖掘硬件资源潜力以及增加其利用率是至关重要的问题。对于互联网公司来说,无论是内部系统还是对外提供服务的系统,都运行着海量各种类型的任务,通常的做法是采用静态划分的方式进行,即不同类型的计算任务使用固定的硬件资源,各个计算框架之间相互独立,互不干扰。这种方式虽然简单,但是资源的整理利用率不高,存在某些计算...原创 2019-05-06 00:08:57 · 1568 阅读 · 0 评论 -
分布式低延迟的调度系统Sparrow详细解读
0. 前言原创 2019-05-09 16:41:23 · 2038 阅读 · 0 评论 -
Google集群管理系统Omega详细解读
0. 前言本文根据 Omega论文整理总结得到一个灵活可扩展的大规模集群调度系统,其出现主要用于解决可扩展性问题以及一些任务对于响应时间的高要求。在Omega出现之前我们知道有两个典型的资源管理和调度框架,分别是YARN和Mesos,这两个系统虽然是两层的调度系统,但是其master节点仍然是集群进行大规模扩展的瓶颈,如果集群规模很大,那么对于某些请求将不能及时作出回应。同时这两个调度系统...原创 2019-05-08 14:06:59 · 4083 阅读 · 0 评论 -
资源管理与任务调度系统Mesos论文及架构详细解读
0. 前言关于资源管理与任务调度系统出现的背景、发展历程及一些基础知识可以参考博客集群资源管理与任务调度系统综述Mesos2007年诞生于UC Berkeley,并在Twitter和Airbnb公司中得到实践和巩固,其论文发表于2011年的NSDI,目标是构建一个数据中心可扩展的全局资源管理器。论文原文:http://static.usenix.org/events/nsdi11/tech...原创 2019-05-05 23:17:01 · 1774 阅读 · 0 评论 -
腾讯云大规模任务调度系统的架构蜕变—王旻—全球架构师峰会2017
0. 导言下文根据 腾讯云高级技术专家 王旻 在全球架构师峰会2017上的演讲《腾讯云大规模任务调度的架构蜕变》结合自己的理解整理得到。如果想从事调度系统相关工作,除了要阅读一些经典调度系统论文外还需要了解目前工业界的具体实践。通常云服务公司会针对特定的业务场景对调度系统进行完善和优化。作者简介:王旻(alexmwang) 腾讯云高级技术专家,硕士就读于中科院计算所,有丰富的分布式调度...翻译 2019-05-04 01:27:12 · 1060 阅读 · 0 评论 -
Borg/Mesos/Yarn三大主流资源管理与调度系统对比
0. 前言Mesos(Twitter)、YARN(apache)和Borg(google)三个资源管理与调度系统可以说是目前资源管理和调度系统的先导者,现有的大多数资源管理和调度系统都从这三个系统中吸纳设计思想。对这三个系统的对比总结有助于更好的了解目前资源管理与调度系统的状态和未来的发展趋势。需要特别说明的是,borg系统所提出的思想直接影响了资源管理和调度系统的发展,例如其提出的在线任务和...原创 2019-05-07 18:00:53 · 5068 阅读 · 0 评论