大数据
Hadoop
hadoop:包含分布式文件系统和分布式计算的一个框架。 HDFS,mapreduce
hadoop项目模块包括4部分:
Hadoop Common --工具类
Hadoop Distributed System(HDFS) --分布式文件系统
Hadoop YARN --分布式资源管理
Hadoop MapReduce --分布式计算框架
Hadoop-HDFS
存储模型:字节
文件线性切割成块Block 偏移量offset:块的第一个字节面向原文件的下标,eg:第一个块的偏移量是0
架构模型:主从
文件数据分为 元数据MetaData 和 文件数据
(主)NameNode字节保存文件元数据:单节点 posix
生成目录树,不同于ls
(从)DataNode字节保存文件Block数据:多节点
客户端HdfsClient先找主再找从
NN
数据元数据
基于内存存储 快 不会和磁盘发生交换,但要持久化
NameNode的metadate信息在启动后会加载到内存
metadata存储到磁盘文件名为“fsimage”
edits记录对metadata的操作日志。。。redis
持久化的2种方式:快照 fsimage–需要大量IO 写日志文件 edits log-只记录用户操作
注意:都不保存