02-大象和它的家人们-Hadoop生态圈详解

本文详细介绍了Hadoop生态圈的各个组件,包括HDFS、MapReduce、YARN、Hive、Pig、HBase、HCatalog、Avro、Thrift、Drill、Mahout、Sqoop、Flume、Ambari、Zookeeper和Oozie。HDFS作为存储系统,由NameNode和DataNode组成,而MapReduce提供数据处理能力。YARN作为资源管理器,支持多种数据处理模型。Hive提供数据仓库功能,Pig则用于大型数据集的分析。Apache Drill擅长处理结构化和半结构化数据,而Mahout提供机器学习算法。此外,还介绍了数据导入导出工具如Sqoop,以及集群管理平台Ambari和分布式协调服务Zookeeper。
摘要由CSDN通过智能技术生成

Hadoop生态圈及其组件介绍

本章目标

  1. Hadoop生态圈组件

1.Hadoop生态圈组件

我们在前面已经概要介绍了Hadoop生态圈,我们本节将就Hadoop生态圈的各种组件进行详细介绍,包括各个组件的构成,其他特点,我们将学习包括HDFS及HDFS的组件,MapReduce,YARN,Hive,Apache Pig,Apache HBase及HBase组件,HCatalog,Avro,Thrift,Drill,Apache mahout,Sqoop,Apache Flume,Ambari,Zookeeper以及Apache OOzie等。

在这里插入图片描述

2 Hadoop生态圈介绍

2.1 Hadoop分布式文件系统

HDFS(Hadoop distributed file system ,分布式文件系统)是hadoop生态圈中最重要的组件。它是Hadoop最基本的存储系统。Hadoop分布式文件系统基于Java的文件系统,它为大数据提供了可缩放,容错,可靠,高性价比的数据存储。HDFS是运行在普通硬件上的分布式文件系统。HDFS已经为很多安装模式做好了默认的配置,从而对大型集群节约了配置时间。Hadoop可以使用类似与Shell命令这样的方式和HDFS直接交互。

HDFS组件:

Hadoop HDFS有两个重要的组件,它们是NameNode和DataNode:

NameNode

它也称为Master节点。NameNode并不存储实际数据或者数据集。NameNode存储元数据,比如数据块的数量,位置,在哪个机架,数据存储在哪个Datanode等等。它由文件和目录构成。

HDFS NameNode的任务:

  • 管理文件系统命名空间
  • 控制客户端到文件的访问
  • 执行文件系统任务,包括命名,关闭,打开文件和目录
DataNode

DataNode也称为Slave节点。HDFS Natanode负责为HDFS存储实际数据。对于每个客户端请求,Datanode执行读写操作。Datanode复制的数据块在文件系统中包含两个文件。第一个文件是数据,而第二个文件记录块的元数据。HDFS元数据包含了数据的校验和(checksum)。在启动时,每个Datanode都会连接到它对应的Namenode并进行握手。在握手期间将校验命名空间ID和DataNode软件版本。如果发现不匹配DataNode将自动失败。

HDFS DataNode的任务:

  • DataNode执行类似数据块的创建,删除以及根据NameNode指导进行复制。
  • DataNode管理数据存储

这些就是Hadoop生态系统中所有关于HDFS的组件。

2.2 MapReduce

Hadoop MapReduce是Hadoop生态系统的核心组件,提供了数据处理的能力。MapReduce是软件框架,它便于你编写应用程序来处理存储在Hadoop分布式文件系统中大量结构化及非结构化的数据。

MapReduce程序天生就是并行的,因此,非常适合在集群的多台机器上上执行大规模的数据分析。它提升了集群平行处理的速度和可靠性。

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值