几个有关hadoop生态系统的架构图

1、hadoop1.0时期架构


2、hadoop2.0时期架构


3、hdfs架构


Active Namenode
主 Master(只有一个),管理 HDFS 的名称空间,管理数据块映射信息;配置副本策略;处理客户端读写请求

Secondary NameNode
NameNode 的热备;定期合并 fsimage 和 fsedits,推送给 NameNode;当 Active NameNode 出现故障时,快速切换为新的 Active NameNode。
Datanode
Slave(有多个);存储实际的数据块;执行数据块读 / 写
Client
与 NameNode 交互,获取文件位置信息;与 DataNode 交互,读取或者写入数据;管理 HDFS、访问 HDFS。

4、MapReduce
源自于 Google 的 MapReduce 论文
发表于 2004 年 12 月
Hadoop MapReduce 是 Google MapReduce 克隆版
MapReduce特点
良好的扩展性
高容错性
适合 PB 级以上海量数据的离线处理

5、yarn架构


6、hadoop1.0与hadoop2.0比较图


7、Hive(基于MR的数据仓库)
由Facebook开源,最初用于海量结构化日志数据统计;ETL(Extraction-Transformation-Loading)工具构建在Hadoop之上的数据仓库;数据计算使用 MapReduce,数据存储使用HDFS
Hive 定义了一种类 SQL 查询语言——HQL
类似SQL,但不完全相同
通常用于进行离线数据处理(采用 MapReduce);可认为是一个 HQL→MR 的语言翻译器

8、Hbase(分布式数据库)
源自 Google 的 Bigtable 论文
发表于 2006 年 11 月
Hbase 是 Google Bigtable 克隆版

9、Hadoop 发行版(开源版)


  • 6
    点赞
  • 35
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
大数据生态系统是由多个组件构成的,这些组件相互之间通过数据的传输和处理进行连接,共同实现大数据的处理和分析。其中,hadoop生态系统是大数据生态系统中的一个重要组成部分。 hadoop生态系统的鱼骨主要可以分为以下几个组件: 1. HDFSHadoop分布式文件系统):HDFShadoop生态系统中的分布式文件系统,它能够将大规模数据存储在集群的各个机器上,并提供高可靠性和高吞吐量的数据访问。 2. MapReduceMapReducehadoop生态系统中的一种编程模型,用于处理大规模数据的并行计算。通过将任务分解为多个子任务,并在分布式环境中进行计算和结果的合并,MapReduce能够高效地处理大数据。 3. YARN(Yet Another Resource Negotiator):YARNhadoop生态系统中的资源管理和作业调度框架,它负责分配集群中的计算资源,并协调各个作业的执行。YARN的出现使得hadoop生态系统能够同时运行多个并发作业,提高了系统的利用率和效率。 4. HBase:HBase是hadoop生态系统中的分布式非关系型数据库,它基于HDFS构建,具有高可靠性、高可扩展性和高性能的特点。HBase能够存储海量的结构化和半结构化数据,并支持快速的随机读写操作。 5. HiveHivehadoop生态系统中的数据仓库工具,它提供了类似于SQL的查询语言,使得用户可以通过简单的SQL语句来查询和分析存储在hadoop集群中的数据。Hive的优势在于它能够将复杂的查询转化为MapReduce任务,从而实现对大规模数据的高效处理。 总之,hadoop生态系统的鱼骨展示了其不同组件之间的关系和作用。通过理解和分析这些组件,可以更好地掌握和应用hadoop生态系统,实现对大数据的有效处理和分析。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值