Hadoop生态系统主要架构

Hadoop生态系统主要架构图汇总

 

1 hadoop1.0时期架构

hadoop1.0时期架构

2 hadoop2.0时期架构

hadoop2.0时期架构

3 hdfs架构

hdfs架构

Active Namenode】:主 Master(只有一个),管理 HDFS 的名称空间,管理数据块映射信息;配置副本策略;处理客户端读写请求

Secondary NameNode】:NameNode 的热备;定期合并 fsimage 和 fsedits,推送给 NameNode;当 Active NameNode 出现故障时,快速切换为新的 Secondary NameNode。

Datanode】:Slave(有多个);存储实际的数据块;执行数据块读 / 写

Client】:与 NameNode 交互,获取文件位置信息;与 DataNode 交互,读取或者写入数据;管理 HDFS、访问 HDFS。

4 MapReduce架构

 

MapReduce架构

MapReduce架构

MapReduce架构

MapReduce架构

5 yarn架构

 

yarn架构

6 hadoop1.0与hadoop2.0比较图

 

hadoop1.0与hadoop2.0比较图

7、Hive(基于MR的数据仓库)

由Facebook开源,最初用于海量结构化日志数据统计;ETL(Extraction-Transformation-Loading)工具构建在Hadoop之上的数据仓库;数据计算使用 MapReduce,数据存储使用HDFS
Hive 定义了一种类 SQL 查询语言——HQL
类似SQL,但不完全相同
通常用于进行离线数据处理(采用 MapReduce);可认为是一个 HQL→MR 的语言翻译器

8、Hbase(分布式数据库)

源自 Google 的 Bigtable 论文
发表于 2006 年 11 月
Hbase 是 Google Bigtable 克隆版

 



作者:小小少年Boy
链接:https://www.jianshu.com/p/061040243935
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Hadoop生态是开源大数据处理框架Hadoop所形成的一系列相关技术的集合,它包括了Hadoop分布式存储系统HDFS、分布式计算框架MapReduce、分布式调度器YARN等关键组件,以及一些配套工具和项目(如Hive、HBase等),用于构建和管理大规模数据处理引擎。 而数据仓库建模(Data Warehouse Modeling)则是指根据业务需求和数据分析目标,将企业或组织的数据整合、清洗并转化为可供分析和决策支持的结构化数据模型(通常采用维度建模或者规范化建模方法)的过程。数据仓库建模的目标是提供高性能、高可用性和易于维护的数据分析环境,为企业提供准确、可信赖的决策支持。 Hadoop生态和数据仓库建模之间存在一定的关系。由于Hadoop具备存储海量数据和并行处理大规模数据的能力,因此可以作为数据仓库的底层存储系统。同时,Hadoop生态中的组件和工具(如Hive)也提供了对数据的清洗、转换和查询等功能,可以支持数据仓库的构建和维护。通过将数据仓库与Hadoop生态相结合,可以建立起一个大规模的、高性能的数据处理平台,实现更快速、更灵活的数据仓库建模和分析。 值得注意的是,数据仓库建模并非只依赖于Hadoop生态,还有其他数据仓库架构和技术可供选择,如传统关系型数据库、商用数据仓库平台等。因此,在具体实施数据仓库建模时,需要根据实际需求和技术成本进行选择,权衡各种方案的优劣,并结合Hadoop生态的特点和能力,合理规划和设计数据仓库建模方案。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值