安装hadoop的两篇博客:
https://www.cnblogs.com/tanrong/p/10645467.html
https://blog.csdn.net/qq_42970173/article/details/88847398
装hadoop时遇到的问题:
https://blog.csdn.net/weixin_38763887/article/details/79157652
https://blog.csdn.net/lglglgl/article/details/80553828
https://blog.csdn.net/hongxiao2016/article/details/88903289
hadoop三大组件:mapreduce(分布式计算),hdfs(分布式存储),yarn(分布式管理:cpu、内存等)
由上可见,yarn之上不一定用的是mapreduce计算框架,可以使用spark等其他计算框架。
一、hdfs
hdfs的文件被分成块进行存储,默认块大小为128MB(3.x),hdfs中有两类结点:namenode和datanode,namenode是管理节点,存放文件元数据,元数据包括两类:1.文件与数据块的映射表2.数据块与数据节点的映射表 datanode是hdfs的工作结点,用于存放真正的数据块。
为了容灾,有如下措施:
1.每个数据有3个副本,分布在两个机架内的三个节点:
2.心跳检测
datanode会定期向namenode发送心跳信息
3.二级namenode
二级namenode定期同步元数据映像文件和修改日志,一旦namenode发生故障,二级namenode会成为主namenode。
hdfs读写文件都是客户端先向管理结点namenode请求,然后namenode返回给客户端元数据,客户端根据元数据中的信息再去对应的datanode进行读写
hdfs特点:
1.数据冗余,硬件容错
2.流式数据访问(一次写入,多次读取,且写入一个块后不允许修改,若想修改只能删掉块重写)
3.存取大文件
二、Yarn
Yarn目前支持三种调度器:
1.FIFO Scheduler(先进先出)
2.CapacityScheduler:fifo的多队列版本(队列内先进先出,队列间有优先顺序)
3.FairScheduler:多用户共享资源
三、Mapreduce
给个图体现一下mapreduce的过程:
mapreduce具体步骤: