百PB级Hadoop集群存储空间治理

最新推荐文章于 2020-08-08 22:43:02 发布

Hadoop技术博文

最新推荐文章于 2020-08-08 22:43:02 发布

阅读量565

点赞数

现在这个世道，随便什么公司什么人都张嘴闭嘴大数据，连做个几十人的问卷都敢叫大数据调查分析。真是无知者无畏。

但也真有不少公司是真的有足够大的数据量的，也确实是在用心做大数据。这些公司通常规模不小，但盈利不一定理想。就算能稳定盈利，也一定有不小的成本压力。因为，大数据如果真的够大，是真的很费钱。

以我所在的公司为例，每年的服务器采购成本就已经好几千万，眼看奔着8位数去了。

因此我们有很强的节省成本的动力。

另一方面，之前我在思考作为公共部门和基础设施部门，在不做业务不赚钱的情况下，怎么体现自己的价值。其中很重要的一点就是，省钱就是赚钱呀，体现在公司收支上效果是差不多的。

在计算资源可复用、可灵活调度的情况下，存储空间往往是带来成本的最重要的原因。这篇文章就简单梳理下这几年我们在数十 PB 到百 PB 级别数据量下对存储空间做的一些治理工作。

一、降低备份数

大家都知道 HDFS 是靠着 3 副本来保证数据的高可用的。但也正是这 3 副本带来了 3 倍的成本。那要降低成本很自然的就想到降低副本数。

这个办法看起来很笨也很 low，不过确实能解决问题。当然考虑到会牺牲一定高可用性的风险，确实也不是个普适性的办法。

我们把这个办法用在临时文件上，或者说是线上业务不会直接用到的数据上。就算真的丢了，也不会直接影响到业务。要么确实没用，丢了就丢了，要么能从其他数据恢复过来。

由于我们对 Hive 库做了比较严格的权限管理，但又为了给大家留一定的灵活空间来开发调试和做实验，非线上的业务都被赶到了 tmp 库。虽然我们设定了定时删除的策略，但 tmp 库的存储开销仍然稳定在一个比较高的水平。

于是我们写了这么个脚本，定时遍历去把 tmp 库的文件副本数设为 2。这样就把 tmp 库的存储消耗降低了 1/3。这可就是几百万的 RMB。

当然也考虑过修改 Hadoop 的源码，自动在分配 block 的时候就去把这个事做了，而不是事后再去改副本数。简单讨论了下，觉得一个小脚本就能解决的问题，事后再做代价也不大，没必要去侵入代码增加复杂性。

另外值得一提的是，在节点数足够多而网络带宽也足够大的情况下，如果存储压力实在大，其实可以考虑把更多的数据设置为 2 副本。因为即使有一台机器挂了，也能很快从其他机器上通过网络补回 2 副本。当然风险也是有的，如果运气差到家了，2 个副本所在的机器同时都报废了，那就真丢数据了。

二、压缩

除了删数据和减少副本外，另一个很容易想到的办法就是压缩。

640?wx_fmt=jpeg

上面的图列出了 Hadoop 最常见的几种压缩格式。其中 native 决定了对单个文件的处理性能，毕竟 Java 在这种计算密集型的活上还是比不过 C 系列的。而 splitable 决定了一个文件是否可切分给多个 mapper 处理，也就是文件是否能被并行处理，同样也会对性能造成很大影响。

所以从定性的角度考虑，单看性能，lzo 和 bzip2 似乎是首选。

但性能到底怎么样，还得看实际的性能测试结果，由于时间实在太久，一时找不到当时的数据。从网上找了个 benchmark 看看。不要纠结绝对数字，只要知道相对差距就行。

640?wx_fmt=jpeg

很明显，bzip2 压缩和解压速率实在太慢了，差了数量级了，第一个被淘汰。

剩下3个，gzip 压缩比最高，也就是最省空间，但处理速率相对慢些，但也不至于像 bzip2 那么夸张。lzo 和 snappy 无论压缩比还是处理速度，都很不错，再考虑到 splitable，似乎 lzo 应该是首选。

但实际上，lzo 有个不可忽视的特性。lzo 的 splitable 是需要额外的索引文件来支持的，每个文件都需要有一个同名的索引文件。并且这个索引文件需要单独去生成。这还不算，索引文件会导致实际文件数多出一倍，这对于大规模集群的 NameNode 会造成巨大的压力。

综合上面这些情况，实际生产环境，我们采用的是这样的方式：

原始日志采集落地的时候使用 snappy 压缩，兼顾存储空间和处理速度。
周期性的对清洗完的日志文件做 archive，并把 snappy 文件转换为 gzip，以节省空间。
对结构化的数据，主要是 Hive 表，采用 parquet+gzip 的方式，gzip 节省空间，而相对于 snappy 的性能劣势，则由 parquet 的性能优势来弥补。

这样，就能在存储空间和性能之间找到比较好的平衡。

三、冷热分层

在存储领域有个很流行的词，叫异构存储（heterogeneous storage），大白话讲就是不同类型的存储放在一个系统里，比如 RAM、SSD、DISK 等等。不少类似 Spark 这样的框架都对异构存储做了广泛的支持。

异构存储通常用来解决访问性能问题，这很容易理解，不同的存储介质访问速度普遍差了数量级。但同时，空间大小和成本也差了数量级，因此也能被用来节省成本。

HDFS 定义了两个概念来支持异构存储。

第一个概念：Storage Type

用来表示不同类型的存储，包括：