字节跳动10万节点HDFS集群多机房架构演进之路

原创

于 2021-07-02 10:30:59 发布

· 8.3k 阅读

30 ·

版权

文章标签：

#运维 #大数据 #分布式 #编程语言 #hadoop

本文探讨了字节跳动HDFS在应对业务增长与多元场景挑战中的演进策略，重点介绍了双机房到多机房架构的设计，如何通过跨机房数据放置和NameNode的机房感知实现容量扩展和容灾需求。关键技术和组件包括DanceNN、BookKeeper和ZooKeeper在容灾中的作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

背景

现状

HDFS 全称是 Hadoop Distributed File System，其本身是 Apache Hadoop 项目的一个模块，作为大数据存储的基石提供高吞吐的海量数据存储能力。自从 2006 年 4 月份发布以来，HDFS 目前依然有着非常广泛的应用，以字节跳动为例，随着公司业务的高速发展，目前 HDFS 服务的规模已经到达“双 10”的级别：

单集群节点 10 万台级别
单集群数据量达到 10EB 级别

主要使用场景包括

离线
- OLAP 查询引擎存储底座，包括 Hive/ClickHouse/Presto 等场景
- 机器学习离线训练数据
近线
- ByteMQ
- 流式任务 Checkpoint

业界很多公司在维护 HDFS 服务时，采用的都是小集群模式，即生产上部署多个隔离独立的 HDFS 集群满足业务的不同需求。字节跳动采用的是横跨多个机房的联邦大集群部署模式，即 HDFS 只有一个集群，这个集群有多个 nameservice，但是底层的 DN 是横跨 A/B/C 3 个机房的，由于社区版 HDFS 没有机房感知相关的支持，因此字节跳动 HDFS 团队在这个功能上做了专门的设计和实现，本文会介绍这部分的工作。