Hadoop入门—HDFS、MR、Yarn

原创

已于 2024-12-20 13:22:44 修改 · 2.8k 阅读

·

56

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#hadoop #hdfs #大数据 #big data

于 2024-04-15 14:38:50 首次发布

目录

Hadoop 三大发行版本

Hadoop基本组成

常用Shell命令

HDFS分布存储

NameNode（NN）

DataNode（DN）

SecondaryNameNode（SNN）

文件写入流程

HDFS架构的稳定性

文件读取流程

Block块和多副本

edits和fsimage文件

元数据合并及控制参数

Mapreduce分布式并行计算框架

Yarn作业调度、资源管理

ResourceManager

ApplicationMaster

JobHistoryServer

Hadoop一键启停

Hadoop简介

狭义来说，hadoop是Apache基金会开发的分布式系统基础架构，用来解决海量数据的存储和海量数据的分析计算问题。广义上来说，Hadoop 通常是指一个更广泛的概念 —— Hadoop 生态圈。

Hadoop 三大发行版本

Apache、Cloudera、Hortonworks

Apache 版本最原始（最基础）的版本，对于入门学习最好。

Cloudera在大型互联网企业中用的较多。其主要产品有CDH、Cloudera Manager，Cloudera Support

Hadoop优势

高可靠性： Hadoop 底层维护多个数据副本，所以即使 Hadoop 某个计算元素或存储出现故障，也不会导致数据的丢失。
高扩展性： 在集群间分配任务数据，可方便的扩展数以千计的节点。
高效性：在 MapReduce 的思想下，Hadoop 是并行工作的，以加快任务处理速度。
高容错性： 能够自动将失败的任务重新分配。

低成本：Hadoop不要求机器的配置达到极高的标准，大部分普通商用服务器即可满足要求，通过提供多个副本和容错机制提高集群的可靠性

Hadoop基本组成

常用Shell命令

hdfs dfs -ls <path>：列出指定 HDFS 路径下的文件和目录
hdfs dfs -mkdir <path>：在 HDFS 中创建新目录
hdfs dfs -put <localsrc> <dst>：将本地文件（或目录）复制到 HDFS
hdfs dfs -get <src> <localdst>：将 HDFS 上的文件（或目录）复制到本地
hdfs dfs -mv <src> <dst>：移动 HDFS 中的文件目录或重命名文件目录
hdfs dfs -cp <src> <dst>：复制 HDFS 中的文件或目录
hdfs dfs -rm <path>：删除 HDFS 中的文件
hdfs dfs -cat <path>：在控制台显示 HDFS 文件的内容
hdfs dfs -du <path>：显示 HDFS 文件或目录的大小
hdfs dfs -df <path>：显示 HDFS 的可用空间
hdfs fsck path [-files [-blocks [-location]]]
-files列出路径内的文件状态
-files -blocks输出文件块报告（几个块，几个副本）
-files -blocks -locations 输出每个block的详情

HDFS分布存储

HDFS是一个分布式文件系统，具有高容错、高吞吐量等特性，分布在多个集群节点上的文件系统。有NN、DN、SNN三种角色。

HDFS启停

NameNode（NN）

HDFS的主角色，负责管理每个文件的块所在的 DataNode、整个HDFS文件系统、存储文件的元数据，如文件名，文件目录结构，文件属性（生成时间、副本数、文件权限）等。

DataNode（DN）

HDFS从角色，负责处理客户端的读写请求，存储删除文件块，以及块数据校验和。

SecondaryNameNode（SNN）

NN的辅助角色，帮NN打杂，监控 HDFS 状态的辅助后台程序，每隔一段时间获取 HDFS 元数据的快照。

可通过9870端口（默认9870）访问web界面，查看集群各节点状态及信息

文件写入流程

发送的写入请求通过后，客户端会根据NN返回的信息自动把数据分块，向网络距离最近的DN写入数据。同时，DN会完成备份操作，把备份传到其他的DN，然后由其他的DN再次做备份传播，直到满足设置的备份数量。当数据写入完成后，客户端会通知NN，由NN完成元数据记录。

<

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。