Hadoop笔记总结

本文是关于Hadoop的详细笔记,涵盖了HDFS的架构与数据读写,MapReduce的工作原理,YARN的组件及任务调度策略,以及Hadoop的高可用性和扩展性。HDFS通过主从结构实现数据的分布式存储,MapReduce解决大数据的分布式计算问题,YARN作为资源管理器,负责任务调度与资源分配。同时,文章讨论了推测执行在处理异常task时的角色,以及不同调度策略对系统性能的影响。
摘要由CSDN通过智能技术生成

Hadoop笔记

Hadoop2.6.0是一种适合海量数据的分布式存储和分布式计算平台,有四个优点:高可靠性,高扩展性,高效性,高容错性。
Hadoop有三大组件构成:1.hdfs 2.mapreduce 3.yarn

在这里插入图片描述

HDFS

在这里插入图片描述

hdfs是一个分布式存储框架,适合存储海量数据,它是主从结构,有namenode,secondary namenode,datanode;
其中主节点namenode是最多有两个(其中一个是备份,并且不会放在一个集群里):
主节点主要负责接收用户操作请求,维护目录结构,存储元数据。主节点的文件如下:
fsimage:元文件镜像(存储某一时段的namenode内存元数据连接)
edits(操作日志文件,namenode启动后新增的操作信息)
fstime(最近一次checkpoint的时间。
secondarynamenode负责将fsimage载入内存并合并edits。
datanode提供真实文件存储服务,其中的文件块(block),编号从0开始,每块128M,尽量均匀的分布在各个datanode上,与其他文件系统不同的是如果最后文件不满128M,并不会占用一整个block。
!如果集群崩掉了,再次开始时,有错误,应该去/usr/local/soft/hadoop-2.6.0/tmp/dfs/data/current目录下,vi VERSION,将DataNode的集群ID与namenode的clusterID=XXXXXXXXXX 集群id同步
机架感知:将副本存在不同的节点,根据网络拓扑的远近来决定读取哪个副本。并且一个节点崩掉,并不会影响数据。
客户端第一步先访问namenode,获取blk的列表。
第一步:选择网络延迟,网络拓扑离客户端最近的一个。
第二步:客户端会直接从datanode上读取数据。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值