Hadoop笔记总结

最新推荐文章于 2024-09-10 22:04:30 发布

Dooooooos

最新推荐文章于 2024-09-10 22:04:30 发布

阅读量140

点赞数

文章标签： hadoop hdfs mapreduce 大数据

本文链接：https://blog.csdn.net/baidu_29765565/article/details/107481193

版权

本文是关于Hadoop的详细笔记，涵盖了HDFS的架构与数据读写，MapReduce的工作原理，YARN的组件及任务调度策略，以及Hadoop的高可用性和扩展性。HDFS通过主从结构实现数据的分布式存储，MapReduce解决大数据的分布式计算问题，YARN作为资源管理器，负责任务调度与资源分配。同时，文章讨论了推测执行在处理异常task时的角色，以及不同调度策略对系统性能的影响。

摘要由CSDN通过智能技术生成

Hadoop笔记

Hadoop2.6.0是一种适合海量数据的分布式存储和分布式计算平台，有四个优点：高可靠性，高扩展性，高效性，高容错性。
Hadoop有三大组件构成：1.hdfs 2.mapreduce 3.yarn

在这里插入图片描述

HDFS

在这里插入图片描述

hdfs是一个分布式存储框架，适合存储海量数据，它是主从结构，有namenode，secondary namenode，datanode；
其中主节点namenode是最多有两个（其中一个是备份，并且不会放在一个集群里）：
主节点主要负责接收用户操作请求，维护目录结构，存储元数据。主节点的文件如下：
fsimage：元文件镜像（存储某一时段的namenode内存元数据连接）
edits（操作日志文件，namenode启动后新增的操作信息）
fstime（最近一次checkpoint的时间。
secondarynamenode负责将fsimage载入内存并合并edits。
datanode提供真实文件存储服务，其中的文件块（block），编号从0开始，每块128M，尽量均匀的分布在各个datanode上，与其他文件系统不同的是如果最后文件不满128M，并不会占用一整个block。
！如果集群崩掉了，再次开始时，有错误，应该去/usr/local/soft/hadoop-2.6.0/tmp/dfs/data/current目录下，vi VERSION，将DataNode的集群ID与namenode的clusterID=XXXXXXXXXX 集群id同步
机架感知：将副本存在不同的节点，根据网络拓扑的远近来决定读取哪个副本。并且一个节点崩掉，并不会影响数据。
客户端第一步先访问namenode，获取blk的列表。
第一步：选择网络延迟，网络拓扑离客户端最近的一个。
第二步：客户端会直接从datanode上读取数据。

最低0.47元/天解锁文章

Dooooooos

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop笔记总结

Hadoop笔记Hadoop2.6.0是一种适合海量数据的分布式存储和分布式计算平台，有四个优点：高可靠性，高扩展性，高效性，高容错性。hadoop有三大组件构成：1.hdfs 2.mapreduce 3.yarn[外链图片转存中…(img-Xl4IdIlH-1595296224204)]HDFShdfs是一个分布式存储框架，适合存储海量数据，它是主从结构，有namenode，secondary namenode，datanode；其中主节点namenode是最多有两个（其中一个是备份，并且不会
复制链接

扫一扫