大数据—Hadoop生态圈

本文介绍了Hadoop生态圈中的关键组件,包括数据存储的HDFS、数据分析的MapReduce、资源管理的Yarn、内存计算的Spark、数据仓库Hive、列存储数据库Hbase、工作流调度器Oozie、数据导入工具Sqoop和Pig、日志收集的Flume以及消息队列Kafka。此外,还提到了大数据运维工具Ambari,用于自动化部署和监控Hadoop组件。
摘要由CSDN通过智能技术生成

前言

整理了一下目前常用的hadoop组件,后续将会对这些组件的具体应用场景和使用细节进行展开分析。如果大家发现有更好的建议欢迎大家在下方留言。

生态圈

生态圈

数据存储:HDFS

HDFS,它是 Hadoop 技术体系中的核心基石,负责分布式存储数据,你可以把它理解为一个分布式的文件系统。此文件系统的主要特征是数据分散存储,一个文件存储在 HDFS 上时会被分成若干个数据块,每个数据块分别存储在不同的服务器上。
原理图
如上图:

  • NameNode:HDFS管理节点,存储元数据,同时负责读,写调度和存储分配。
  • DataNode:数据存储节点,用来存储数据。在DataNode上的每个数据块会根据设置的副本数进行分级复制,保证同一个文件的每个数据块副本都不在同一台机器上。

数据分析:MapReduce

mapreduce是分布式计算模型,离线计算。mapreduce的发展已经经过了15个年头。在大数据的今天,数据量都在PB甚至EB级别,对数据分析效率有了更高的要求。于是,第二代计算模型产生了,比如Tez和Spark。它们大量使用内存,灵活

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值