hadoop的一些知识

最新推荐文章于 2024-04-22 23:16:36 发布

小伟db

最新推荐文章于 2024-04-22 23:16:36 发布

阅读量77

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_35985044/article/details/107860182

版权

安装hadoop的两篇博客：

https://www.cnblogs.com/tanrong/p/10645467.html

https://blog.csdn.net/qq_42970173/article/details/88847398

装hadoop时遇到的问题：

https://blog.csdn.net/weixin_38763887/article/details/79157652

https://blog.csdn.net/lglglgl/article/details/80553828

https://blog.csdn.net/hongxiao2016/article/details/88903289

hadoop三大组件：mapreduce(分布式计算),hdfs(分布式存储),yarn(分布式管理：cpu、内存等)

由上可见，yarn之上不一定用的是mapreduce计算框架，可以使用spark等其他计算框架。

一、hdfs

hdfs的文件被分成块进行存储，默认块大小为128MB(3.x)，hdfs中有两类结点：namenode和datanode,namenode是管理节点，存放文件元数据，元数据包括两类：1.文件与数据块的映射表2.数据块与数据节点的映射表 datanode是hdfs的工作结点，用于存放真正的数据块。

为了容灾，有如下措施：

1.每个数据有3个副本，分布在两个机架内的三个节点：

2.心跳检测

datanode会定期向namenode发送心跳信息

3.二级namenode

二级namenode定期同步元数据映像文件和修改日志，一旦namenode发生故障，二级namenode会成为主namenode。

hdfs读写文件都是客户端先向管理结点namenode请求，然后namenode返回给客户端元数据，客户端根据元数据中的信息再去对应的datanode进行读写

hdfs特点：

1.数据冗余，硬件容错

2.流式数据访问(一次写入，多次读取，且写入一个块后不允许修改，若想修改只能删掉块重写)

3.存取大文件

二、Yarn

Yarn目前支持三种调度器：

1.FIFO Scheduler(先进先出)

2.CapacityScheduler：fifo的多队列版本(队列内先进先出，队列间有优先顺序)

3.FairScheduler：多用户共享资源

三、Mapreduce

给个图体现一下mapreduce的过程：

mapreduce具体步骤：

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。