GOOGLE 分布式系统关键技术论文分析

一、背景

大规模分布式系统设计是业界的技术难题,本文通过 GOOGLE 的分布式系统关键技术论文,从数据平面和控制平面两个纬度进行解读,从而帮助构建分布式系统设计基础。

二、关键论文

计算框架论文简介发表时间主要作者
搜索引擎 Search EngineThe Anatomy of a Large-Scale Hypertextual Web Search Engine1998Sergey Brin, Lawrence Page
数据挖掘 [Mining Causal Structures](Mining Causal Structures)Scalable Techniques for Mining Causal Structures1998Craig Silverstein, Sergey Brin, Rajeev Motwani, etc.
搜索引擎 Extracting PatternsExtracting Patterns and Relations from the World Wide Web1998Sergey Brin
搜索引擎 WEBSEARCH FOR A PLANETTHE GOOGLE CLUSTER ARCHITECTURE2003Luiz André Barroso, Jeffrey Dean
分布式锁服务 ChubbyThe Chubby lock service for loosely-coupled distributed systems2006Mike Burrows
数据中心架构 The Datacenter as a ComputerAn Introduction to the Design of Warehouse-Scale Machines2009Luiz André Barroso, Urs Hölzle
数据中心统计画像 GOOGLE-WIDE PROFILINGA CONTINUOUS PROFILING INFRASTRUCTURE FOR DATA CENTERS2010Gang Ren, Eric Tune, Tipp Moseley, etc.
系统追踪 DapperA Large-Scale Distributed Systems Tracing Infrastructure2010Benjamin H. Sigelman, Luiz Andre Barroso, Mike Burrows, etc.
多租户弹性资源伸缩 CloudScaleElastic Resource Scaling for Multi-Tenant Cloud Systems2011Zhiming Shen, Sethuraman Subbiah, Xiaohui Gu
网络设计 B4Experience with a Globally-Deployed Software Defined WAN2013Sushant Jain, Alok Kumar, Subhasree Mandal, etc.
低时延设计 The Tail at ScaleSoftware techniques that tolerate latency variability are vital to building responsive large-scale Web services2013JEFFREY DEAN, LUIZ ANDRÉ BARROSO
集群调度 OmegaFlexible, scalable schedulers for large compute clusters2013Malte Schwarzkopf, Andy Konwinski, Michael Abd-El-Malek, etc.
性能隔离 CPI2CPU performance isolation for shared compute clusters2013Xiao Zhang, Eric Tune, Robert Hagmann
大规模集群管控 BorgLarge-scale cluster management at Google with Borg2015Abhishek Verma, Luis Pedrosa, Madhukar Korupolu, etc.
自动分区 SlicerAuto-Sharding for Datacenter Applications2016Atul Adya, Daniel Myers, Jon Howell, etc.
容器调度 K8SBorg, Omega, and Kubernetes2016BRENDAN BURNS, BRIAN GRANT, DAVID OPPENHEIMER, etc.
图分区管理 Graph partitioningDistributed Balanced Partitioning via Linear Embedding2016Kevin Aydin, MohammadHossein Bateni, Vahab Mirrokni
数据排布的高效集群调度 FirmamentFast, Centralized Cluster Scheduling at Scale2016Ionel Gog, Malte Schwarzkopf, Adam Gleave, etc.

三、技术分析

GOOGLE 从搭建搜索引擎开始,分别从数据平面和管理平面构建大规模分布式系统,其中数据平面以 GFSMRBigTable 三篇经典 作为基础不断发展,同时管控平面也不断完善。

  • 分布式系统的调度控制,从 BorgOmega,再到当前风靡业界的 Kubernetes,支撑了分布式资源调度的发展。
  • 分布式系统的锁服务 Chubby,提供了一致性的数据管理能力。
  • 分布式系统的跟踪系统 Dapper,让构建分布式服务时能够跟踪模块间的执行,便于运维优化。
  • 分布式系统的统计画像 GOOGLE-WIDE PROFILING,对分布式系统进行运行统计,从而支撑开发运维的优化。
  • 分布式系统的资源隔离 CPI2,通过对资源的隔离控制,保证服务等级。
  • 分布式系统的自动分区管理 Slicer 和 图分区管理 Graph partitioning | Distributed Balanced Partitioning via Linear Embedding,可以解决元数据分区热点问题。

四、总结

构建大规模分布式系统,其实和构建传统 ICT 类似,也需要从架构上设计好数据平面和控制平面,从而除了集中数据路径的设计优化,同样也需要设计好控制平面的集群控制、锁管理、日志跟踪、统计画像、资源隔离、热点均衡等技术,只是在大规模系统构建的需求下,需要进行架构的重新设计。

五、参考

  1. GOOGLE Publication Database

转载于:https://blog.51cto.com/luoqingchao/2350032

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值