大数据基础知识-Hadoop、HBase、Hive一篇搞定

原来是猪猪呀

已于 2024-05-28 16:13:11 修改

阅读量8.8k

点赞数 18

文章标签： hadoop 大数据分布式

于 2024-05-28 10:55:52 首次发布

本文链接：https://blog.csdn.net/qq_41680016/article/details/139260539

版权

Hadoop

Hadoop是一个由Apache基金会所开发的分布式系统基础架构，其核心设计包括分布式文件系统（HDFS）和MapReduce编程模型；Hadoop是一个开源的分布式计算框架，旨在帮助用户在不了解分布式底层细节的情况下，开发分布式程序。

它通过利用集群的力量，提供高速运算和存储能力，特别适合处理超大数据集的应用程序。

Hadoop生态圈

Hadoop生态圈是一个由多个基于Hadoop开发的相关工具、库、应用程序、平台和服务组成的生态系统。这个生态系统旨在解决大规模数据处理问题，为用户提供从数据存储、处理到分析的全面解决方案。以下是对Hadoop生态圈主要组成部分的清晰归纳：

核心组件：

HDFS（Hadoop Distributed File System）：Hadoop分布式文件系统，用于存储大规模数据集。HDFS将数据划分为多个块，并将这些块分布在集群中的多个节点上，以提供高可靠性和高可扩展性。

MapReduce：一种编程模型，用于处理和分析存储在HDFS中的大规模数据集。MapReduce将复杂的数据处理任务划分为两个阶段：Map阶段和Reduce阶段，从而实现并行处理。

资源管理器：

YARN（Yet Another Resource Negotiator）：YARN是Hadoop 2.x版本引入的资源管理器，用于管理集群中的资源（如CPU、内存等）。YARN允许用户在同一集群上运行不同类型的应用程序，如MapReduce、Spark等。

数据存储与仓库：

HBase：一个基于Hadoop的分布式、版本化的非关系型数据库，用于存储结构化数据。HBase提供类似于Bigtable的列式存储，并支持实时读写操作。

Hive：一个基于Hadoop的数据仓库工具，允许用户使用SQL语言查询HDFS中的数据。Hive将SQL查询转换为MapReduce作业，并在Hadoop集群上执行。

数据处理与分析：

Spark：一个开源的大规模数据处理引擎，支持批处理、流处理、交互式查询和机器学习等多种应用场景。Spark基于内存计算，比MapReduce更加高效。

Pig：一个高级数据处理语言，允许用户编写简单的查询来处理大规模数据集。Pig将查询转换为MapReduce作业，并在Hadoop集群上执行。

分布式协调服务：

ZooKeeper：一个分布式协调服务，用于维护Hadoop集群的状态信息，如节点健康状态、数据块位置等。ZooKeeper还提供命名服务、配置管理等功能。

其他工具与服务：

Flume：一个用于收集、聚合和传输大量日志数据的工具，可以将数据发送到HDFS、HBase等存储系统中。

Sqoop：一个用于在Hadoop和结构化数据存储（如关系型数据库）之间传输数据的工具。Sqoop可以将数据从关系型数据库导入到HDFS中，也可以将HDFS中的数据导出到关系型数据库中。

Hadoop生态圈通过整合这些组件和工具，为用户提供了一个完整的大数据解决方案。用户可以根据需求选择适合的组件来构建自己的大数据处理和分析系统。

起源

Hadoop起源于Apache Nutch项目，始于2002年，是Apache Lucene的子项目之一。在受到Google的MapReduce论文的启发后，Doug Cutting等人开始尝试实现MapReduce计算框架，并将其与NDFS（Nutch Distributed File System）结合，最终发展成为Hadoop。