大数据原理及应用笔记

最新推荐文章于 2024-07-24 21:20:13 发布

miner_zhu

最新推荐文章于 2024-07-24 21:20:13 发布

阅读量1.5k

点赞数

文章标签：大数据笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/miner_zhu/article/details/81025612

版权

本文详细介绍了Hadoop的大数据原理，包括HDFS的分布式文件系统、YARN资源调度框架和MapReduce分布式计算。此外，还提及了HBase分布式数据库、Spark大数据处理平台以及NoSQL非关系型数据库在大数据领域的应用。

摘要由CSDN通过智能技术生成

分布式文件系统HDFS

文件以多副本的方式进行存储

架构：1 master（NameNode）带n slaves（DataNode）；Name node在内存里，datanode在硬盘里。1个文件拆分为多个Block。

NameNode：1负责客户端请求的响应；2负责元数据（文件的名称，副本系数，Block存放的DN）的管理

DataNode：1存储用户的文件对应的数据块（Block）；2定期向NN发送心跳信息，汇报本身及其所有的block信息，健康状况。

建议NN和DN部署在不同节点上

常用访问语言：shell命令，java api

资源调度框架YARN

产生背景：MapReduce1.x存在问题：1JobTrackern TaskTracker单点故障&节点压力大不易扩展；资源利用率&运维成本；

不同计算框架可以共享同一个hdfs集群上的数据，享受整体的资源调度。按资源进行分配，提高集群资源利用率

YARN的架构：1ResourceManager:RM;

整个集群同一时间提供服务的RM只有一个，负责集群资源的统一管理和调度；

处理客户端的请求提交/杀死一个作业

2NodeManager:NM;

整个集群有多个，负责自己自身节点资源管理和使用

定时向RM汇报本节点的资源使用情况

接受并处理来自RM的各种命令：启动Container

处理来自AM的命令

单个节点的资源管理

3ApplicationMaster:AM;

每个应用程序对应一个：MR、Spark、负责应用程序的管理

为应用程序向RM申请资源（core。memory），

最低0.47元/天解锁文章

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。