hadoop的一些知识

安装hadoop的两篇博客:

https://www.cnblogs.com/tanrong/p/10645467.html

https://blog.csdn.net/qq_42970173/article/details/88847398

装hadoop时遇到的问题:

https://blog.csdn.net/weixin_38763887/article/details/79157652

https://blog.csdn.net/lglglgl/article/details/80553828

https://blog.csdn.net/hongxiao2016/article/details/88903289

hadoop三大组件:mapreduce(分布式计算),hdfs(分布式存储),yarn(分布式管理:cpu、内存等)

                                                                          

 

由上可见,yarn之上不一定用的是mapreduce计算框架,可以使用spark等其他计算框架。

一、hdfs

hdfs的文件被分成块进行存储,默认块大小为128MB(3.x),hdfs中有两类结点:namenode和datanode,namenode是管理节点,存放文件元数据,元数据包括两类:1.文件与数据块的映射表2.数据块与数据节点的映射表 datanode是hdfs的工作结点,用于存放真正的数据块。

                                                                 

为了容灾,有如下措施:

1.每个数据有3个副本,分布在两个机架内的三个节点:

 

2.心跳检测

datanode会定期向namenode发送心跳信息

3.二级namenode

二级namenode定期同步元数据映像文件和修改日志,一旦namenode发生故障,二级namenode会成为主namenode。

hdfs读写文件都是客户端先向管理结点namenode请求,然后namenode返回给客户端元数据,客户端根据元数据中的信息再去对应的datanode进行读写

 

hdfs特点:

1.数据冗余,硬件容错

2.流式数据访问(一次写入,多次读取,且写入一个块后不允许修改,若想修改只能删掉块重写)

3.存取大文件

 

二、Yarn

Yarn目前支持三种调度器:

1.FIFO Scheduler(先进先出)

2.CapacityScheduler:fifo的多队列版本(队列内先进先出,队列间有优先顺序)

3.FairScheduler:多用户共享资源

 

三、Mapreduce

给个图体现一下mapreduce的过程:

                                                     

mapreduce具体步骤:

                                          

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值