大数据最全一篇讲明白 Hadoop 生态的三大部件(4)，帮你突破瓶颈

最新推荐文章于 2024-07-21 16:17:25 发布

2301_82242724

最新推荐文章于 2024-07-21 16:17:25 发布

阅读量1.1k

点赞数 30

分类专栏：程序员文章标签：大数据面试学习

本文链接：https://blog.csdn.net/2301_82242724/article/details/138727857

版权

程序员专栏收录该内容

58 篇文章 0 订阅

订阅专栏

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化资料的朋友，可以戳这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

每日一句正能量

黎明时怀着飞扬的心醒来，致谢爱的又一天，正午时沉醉于爱的狂喜中休憩，黄昏时带着感恩归家，然后在内心为所爱的祈祷中入眠，让赞美的歌谣停留在唇间。

前言

随着大数据时代的来临，处理和分析海量数据成为了一项重要的挑战。为了应对这一挑战，Hadoop生态系统应运而生。Hadoop生态系统是一个开源的、可扩展的解决方案，它由三大核心部件组成，分别是Hadoop分布式文件系统(HDFS)、Hadoop分布式计算框架(MapReduce)和Hadoop分布式存储和计算平台(YARN)。这三个部件共同协作，提供了一个高效和可靠的大数据处理平台。本文将对Hadoop生态系统的这三大部件进行详细解析，以帮助读者更好地理解Hadoop生态系统的工作原理和优势。

进入大数据阶段就意味着进入NoSQL阶段，更多的是面向OLAP场景，即数据仓库、BI应用等。
大数据技术的发展并不是偶然的，它的背后是对于成本的考量。集中式数据库或者基于MPP架构的分布数据库往往采用的都是性能稳定但价格较为昂贵的小型机、一体机或者PC服务器等，扩展性相对较差；而大数据计算框架可以基于价格低廉的普通的硬件服务器构建，并且理论上支持无限扩展以支撑应用服务。

在大数据领域中最有名的就是 Hadoop 生态，总体来看，它主要由三部分构成：底层文件存储系统 HDFS（Hadoop Distributed File System，Hadoop 分布式文件系统）、资源调度计算框架 Yarn（Yet Another Resource Negotiator，又一个资源协调者）以及基于 HDFS 与 Yarn的上层应用组件，例如 HBase、Hive 等。一个典型的基于 Hadoop 的应用如下图所示。
在这里插入图片描述

▲图　一个典型的 Hadoop 应用

01 HDFS

HDFS 被设计成适合运行在通用硬件（Commodity Hardware）上的分布式文件系统。它和现有的分布式文件系统有很多共同点，例如典型的 Master-Slave 架构（这里不准备展开介绍），也有不同点，HDFS 是一个具有高度容错性的系统，适合部署在廉价的机器上。关于HDFS 这里主要想说两点，默认副本数的设置以及机架感知（Rack Awareness）。

HDFS 默认副本数是 3，这是因为 Hadoop 有着高度的容错性，从数据冗余以及分布的角度来看，需要在同一机房不同机柜以及跨数据中心进行数据存储以保证数据最大可用。因此，为了达到上述目的，数据块需要至少存放在同一机房的不同机架（2 份）以及跨数据中心的某一机架（1 份）中，共 3 份数据。

机架感知的目的是在计算中尽量让不同节点之间的通信能够发生在同一个机架之内，而不是跨机架，进而减少分布式计算中数据在不同的网络之间的传输，减少网络带宽资源的消耗。例如当集群发生数据读取的时候，客户端按照由近到远的优先次序决定哪个数据节点向客户端发送数据，因为在分布式框架中，网络 I/O 已经成为主要的性能瓶颈。

只有深刻理解了这两点，才能理解为什么 Hadoop 有着高度的容错性。高度容错性是Hadoop 可以在通用硬件上运行的基础。

02 Yarn

Yarn 是继 Common、HDFS、MapReduce 之后 Hadoop 的又一个子项目，它是在MapReduceV2 中提出的。

在 Hadoop1.0 中，JobTracker 由资源管理器（由 TaskScheduler 模块实现）和作业控制（由 JobTracker 中多个模块共同实现）两部分组成。

在 Hadoop1.0 中，JobTracker 没有将资源管理相关功能与应用程序相关功能拆分开，逐渐成为集群的瓶颈，进而导致集群出现可扩展性变差、资源利用率下降以及多框架支持不足等多方面的问题。

在 MapReduceV2 中，Yarn 负责管理 MapReduce 中的资源（内存、CPU 等）并且将其打包成 Container。这样可以使 MapReduce 专注于它擅长的数据处理任务，而不需要考虑资源调度。这种松耦合的架构方式实现了 Hadoop 整体框架的灵活性。

03 Hive

Hive 是基于Hadoop 的数据仓库基础构架，它利用简单的 SQL 语句（简称 HQL）来查询、分析存储在 HDFS 中的数据，并把 SQL 语句转换成 MapReduce 程序来进行数据的处理。Hive与传统的关系型数据库的主要区别体现在以下几点。

存储的位置， Hive 的数据存储在 HDFS 或者 HBase 中，而后者的数据一般存储在裸设备或者本地的文件系统中，由于 Hive 是基于 HDFS 构建的，那么依赖 HDFS 的容错特性，Hive 中的数据表天然具有冗余的特点。
数据库更新， Hive 是不支持更新的，一般是一次写入多次读写（这部分从 Hive 0.14之后开始支持事务操作，但是约束比较多），但是由于 Hive 是基于 HDFS 作为底层存储的，而 HDFS 的读写不支持事务特性，因此 Hive 的事务支持必然需要拆分数据文件以及日志文件才能支持事务的特性。
执行 SQL 的延迟，Hive 的延迟相对较高，因为每次执行都需要将 SQL 语句解析成MapReduce 程序。
数据的规模上，Hive 一般是 TB 级别，而后者规模相对较小。
可扩展性上，Hive 支持 UDF、UDAF、UDTF，后者相对来说可扩展性较差。

04 HBase

HBase（Hadoop Database）是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。它底层的文件系统使用 HDFS，使用ZooKeeper 来管理集群的 HMaster 和各RegionServer 之间的通信，监控各RegionServer 的状态，存储各 Region 的入口地址等。

特点
HBase 是 Key-Value 形式的数据库（类比 Java 中的 Map）。既然是数据库那肯定就有表，HBase 中的表大概有以下几个特点。

1）大：一个表可以有上亿行，上百万列（列多时，插入变慢）。

2）面向列：面向列（族）的存储和权限控制，列（族）独立检索。

3）稀疏：对于空（null）的列，并不占用存储空间，因此，表可以设计得非常稀疏。

4）每个单元格中的数据可以有多个版本，默认情况下版本号自动分配，是单元格插入时的时间戳。

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化资料的朋友，可以戳这里获取

f45ff00ff254613a03fab5e56a57acb)**

2301_82242724

关注

30
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
大数据最全一篇讲明白 Hadoop 生态的三大部件(4)，帮你突破瓶颈

随着大数据时代的来临，处理和分析海量数据成为了一项重要的挑战。为了应对这一挑战，Hadoop生态系统应运而生。Hadoop生态系统是一个开源的、可扩展的解决方案，它由三大核心部件组成，分别是Hadoop分布式文件系统(HDFS)、Hadoop分布式计算框架(MapReduce)和Hadoop分布式存储和计算平台(YARN)。这三个部件共同协作，提供了一个高效和可靠的大数据处理平台。本文将对Hadoop生态系统的这三大部件进行详细解析，以帮助读者更好地理解Hadoop生态系统的工作原理和优势。
复制链接

扫一扫