Hadoop 基础理论

hadoop 基础理论

理论知识

数据量级

bit Byte KB MB GB TB PB EB ZB YB BB NB DB

大数据特点

大量 高速 多样 价值密度低

hadoop 前世今生

Hadoop(前身Nutch) 核心 hdfs (分布式存储) 和 MapReduce(分布式计算),yarn 资源调度(负责 hdfs 存储,MR 运算的cpu,磁盘,内存资源调度)
hdfs 是 GFS 的替代品 apache
Mapreduce -> MR
Bigtable -> hbase

hadoop生态体系

hadoop 生态圈 hadoop spark(计算框架) zookpeer hive(数据仓库-> hdfs) sqoop(数据导入导出) hbase(列式数据库-> hdfs) FLume(流式数据采集) kafka(消息队列) storm(数据流实时计算) hue(机器学习库,废弃) Oozie(任务作业调度)全文检索 Lucene solr Elasticsearch (solr 基于 lucene实现)

hadoop 优势

高可靠性:namenode secondNamenode 名称节点备份(单点故障):名称节点存储的是:实际数据存储的位置信息。高可扩展:存储不够扩展节点存储,扩展机器。高效性:分布式计算运算效率高。(目前 MR 基于磁盘调度运算 已经被 spark 基于内存运算替代,spark 是一个基于内存的分布式运算框架核心 RDD DF ,spark 的提出就是替代 MapReduce 解决运算效率低的问题)。高容错性:对集群中错误的节点的处理,因为hdfs在存储数据是具有不同备份。当集群中的某台机器出现故障,hdfs 依然可以从其他机器读取数据(数据备份方式存储)。

hadoop 角色划分

HDFS: namenode(元数据信息) datenode(真实数据)secondNamenode(namenode的备份 单点故障),MapReduce:Map(把分布式程序并行到集群的机器中进行处理)Reduce汇总单个机器的计算结果,进行输出) YARN: ResourceManger: 负责监控管理整个集群的资源分配与调度。 nodemanger:负责 hadoop 单个节点的管理。Application master: 数据切分,应用程序主控者,对应用程序进行数据切分,任务分配,监控,容错。container: 运行应用的资源环境的抽象,封装了 cpu ,内存等程序运行环境信息。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值