Hadoop详解与HDFS读写流程

本文详细介绍了Hadoop的HDFS架构,包括NameNode、DataNode、NN&DN、SNN以及HDFS的优缺点。阐述了HDFS的写流程和读流程,强调了距离优先的读取策略。最后,通过实例展示了如何使用Shell命令执行Hadoop的WordCount程序。
摘要由CSDN通过智能技术生成

大数据

Hadoop

hadoop:包含分布式文件系统和分布式计算的一个框架。 HDFS,mapreduce

hadoop项目模块包括4部分:

Hadoop Common --工具类

Hadoop Distributed System(HDFS) --分布式文件系统

Hadoop YARN --分布式资源管理

Hadoop MapReduce --分布式计算框架

Hadoop-HDFS

存储模型:字节

文件线性切割成块Block 偏移量offset:块的第一个字节面向原文件的下标,eg:第一个块的偏移量是0

架构模型:主从

文件数据分为 元数据MetaData 和 文件数据

(主)NameNode字节保存文件元数据:单节点 posix

​ 生成目录树,不同于ls

(从)DataNode字节保存文件Block数据:多节点

​ 客户端HdfsClient先找主再找从

NN

数据元数据

基于内存存储 快 不会和磁盘发生交换,但要持久化

​ NameNode的metadate信息在启动后会加载到内存

​ metadata存储到磁盘文件名为“fsimage”

​ edits记录对metadata的操作日志。。。redis

持久化的2种方式:快照 fsimage–需要大量IO 写日志文件 edits log-只记录用户操作

​ 注意:都不保存

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值