大数据原理及应用笔记

本文详细介绍了Hadoop的大数据原理,包括HDFS的分布式文件系统、YARN资源调度框架和MapReduce分布式计算。此外,还提及了HBase分布式数据库、Spark大数据处理平台以及NoSQL非关系型数据库在大数据领域的应用。
摘要由CSDN通过智能技术生成

分布式文件系统HDFS

文件以多副本的方式进行存储

架构:1 master(NameNode)带n slaves(DataNode);Name node在内存里,datanode在硬盘里。1个文件拆分为多个Block。

NameNode:1负责客户端请求的响应;2负责元数据(文件的名称,副本系数,Block存放的DN)的管理

DataNode:1存储用户的文件对应的数据块(Block);2定期向NN发送心跳信息,汇报本身及其所有的block信息,健康状况。

建议NN和DN部署在不同节点上

常用访问语言:shell命令,java api

 

资源调度框架YARN

产生背景:MapReduce1.x存在问题:1JobTrackern TaskTracker单点故障&节点压力大不易扩展;资源利用率&运维成本;

不同计算框架可以共享同一个hdfs集群上的数据,享受整体的资源调度。按资源进行分配,提高集群资源利用率

YARN的架构:1ResourceManager:RM;

整个集群同一时间提供服务的RM只有一个,负责集群资源的统一管理和调度;

处理客户端的请求提交/杀死一个作业

2NodeManager:NM;

整个集群有多个,负责自己自身节点资源管理和使用

定时向RM汇报本节点的资源使用情况

接受并处理来自RM的各种命令:启动Container

处理来自AM的命令

单个节点的资源管理

3ApplicationMaster:AM;

         每个应用程序对应一个:MR、Spark、负责应用程序的管理

         为应用程序向RM申请资源(core。memory),

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值