Who limits the resource efficiency of my datacenter: an analysis of Alibaba datacenter traces
这篇文章发在 IWQoS 2019,是包云岗老师团队的工作,对阿里巴巴 2018 年公布的第二版开源数据进行了详细的分析,主要聚焦在数据中心资源使用效率上。
阿里巴巴在 2018 年 12 月公布了其第二版开源数据,这版数据包含了4000+台机器的9天运行时数据,包括 4K 台机器、9K 个在线任务和 4M 个离线任务的静态和运行时数据。
需要注意的是,2017、2018 这两版数据,均是阿里巴巴内部私有云的集群数据,并不是阿里云的数据。
开源数据传送门:https://github.com/alibaba/clusterdata
论文传送门:https://dl.acm.org/citation.cfm?doid=3326285.3329074
本文从阿里巴巴调度框架中,在线任务和离线任务资源分配方式的不同切入,揭示了三个 insight:
- 在阿里巴巴的混部集群中&#