腾讯大数据之新一代资源管理与调度平台

本文介绍了腾讯大数据平台中的新一代资源管理与调度系统Gaia,该系统旨在提升集群资源管理的可扩展性和高并发任务调度能力,支持多租户,并实现资源的高效利用。Gaia基于开源的Yarn进行扩展,通过自研调度器sfair优化调度性能,增强高可用性(HA)和资源管理,目标是打造统一的资源管理调度平台,服务于各种编程框架和业务场景。
摘要由CSDN通过智能技术生成

云计算、大数据经常意味着需要调动数据中心大量的资源,如何能够快速的匹配合适资源,需要一个聪明的“大脑”。数据平台部的TDW,是腾讯自主研发,支持百PB级的数据存储和计算,提供海量、高效、稳定的大数据平台支撑和决策支持,成为腾讯大数据处理的核心平台。更大规模的集群,更多新的分布式编程框架,更多不同的业务场景,都给这个大脑提出了挑战。

同时,我们也在思考一个并非只为TDW服务的通用资源管理系统。这些价值正是Google Borg十余年来作为secret weapon提供的强大能力,也是Mesos、Corona、Yarn都想追随Borg脚步的原因。

图1. 腾讯数据平台整体架构

大数据领域开源技术林立,Hadoop又在持续升温,开源已经悄悄在主宰世界。流行的资源系统的开源项目主要有Yarn、Corona以及Mesos,我们考虑到目前与公司项目的结合度以及未来的趋势,把结论落在了Yarn上。

业务支持上,它可以兼容tdw原来的MR、hive等任务,对于storm、spark等,Yarn也可以有较好支持;从Yarn自身看,虽然它出现最晚,目前也最不成熟,但是它的可扩展性的架构优势以及良好的兼容性,Container的资源管理方式等,都代表了未来资源管理系统的趋势;最后从社区的活跃度以及生态圈看,不但有MR On Yarn、Storm On Yarn,Hive On Yarn,Hbase On Yarn,而比较新兴的samza、spark等,也都在“On Yarn”。Corona和Mesos主要是facebook和twitter在使用,并且他们也同时使用Hadoop集群,这两个开源项目社区都远远不如Hadoop社区活跃,影响力也差很多。基于这些现实情况,我们最终选择了目前并不是很完善的Yarn。

然而,如前所述,Yarn还非常不完善。尤其是在腾讯的场景下,集群规模更大,作业并发度更高,业务场景更多,把开源Yarn直接拿过来使用,显然是不够的。因此,我们依托做过自研集群资源管理和调度系统的优势,开发了自研的调度器sfair,提升Yarn的调度能力以及集群的可扩展性,同时,在资源管理方面,优化了Yarn的内存资源管理,增加了网络带宽等维度的管理。因此,我们的集群资源管理和调度系统又不仅仅是Yarn。

Gaia(盖娅):希腊神话中的大地之神,是众神之母,所有神灵中最德高望重的显赫之神。Gaia以后可以承载各种编程框架、各种应用,是个统一的资源管理调度系统——各种业务都植根于“大地”之上。

我们为Gaia确立的项目目标是:打造腾讯的自研资源管理平台,提供高并发任务调度和资源管理,实现集群资源共享,提升可伸缩性和可靠性,不仅可以为MR等离线业务提供服务,还可以支持实时计算,甚至在线service业务。



图2. Applications on Gaia

Gaia的系统目标
Yarn的官方主页上说“Yarn as Cluster Operating System”,在这一点上,Gaia和Yarn完全一致,目标都是实现一个通用的资源管理和调度平台,作为集群操作系统服务于上层各类应用。系统目标如下:


1.可扩展性
更大规模的集群意味着可以支持更大规模的应用,更大的并发度以及对底层资源更好的共享。而将Hadoop1.0 中的JobTracker扩展到4000个节点规模的集群被证明是极端困难的。新一代计算平台应该可以平滑地扩展至数万节点以及并发的应用,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值